jat-project
/

jat

@@ -174,7 +174,7 @@ model-index:
       value: 0.14 [0.14, 0.15]
       name: IQM expert normalized total reward
     - type: iqm_human_normalized_total_reward
-      value: 0.38 [0.37, 0.38]
       name: IQM human normalized total reward
   - task:
       type: reinforcement-learning
@@ -194,7 +194,7 @@ model-index:
       type: metaworld
     metrics:
     - type: iqm_expert_normalized_total_reward
-      value: 0.68 [0.67, 0.69]
       name: IQM expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -204,7 +204,7 @@ model-index:
       type: mujoco
     metrics:
     - type: iqm_expert_normalized_total_reward
-      value: 0.81 [0.80, 0.82]
       name: IQM expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -214,13 +214,13 @@ model-index:
       type: atari-alien
     metrics:
     - type: total_reward
-      value: 1474.90 +/- 588.75
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.07 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.18 +/- 0.09
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -230,13 +230,13 @@ model-index:
       type: atari-amidar
     metrics:
     - type: total_reward
-      value: 104.89 +/- 103.52
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.05 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.06 +/- 0.06
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -246,13 +246,13 @@ model-index:
       type: atari-assault
     metrics:
     - type: total_reward
-      value: 1650.07 +/- 820.99
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.09 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 2.75 +/- 1.58
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -262,13 +262,13 @@ model-index:
       type: atari-asterix
     metrics:
     - type: total_reward
-      value: 800.00 +/- 584.85
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.17 +/- 0.17
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.07 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -278,7 +278,7 @@ model-index:
       type: atari-asteroids
     metrics:
     - type: total_reward
-      value: 1385.30 +/- 507.53
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
@@ -294,13 +294,13 @@ model-index:
       type: atari-atlantis
     metrics:
     - type: total_reward
-      value: 66980.00 +/- 158449.73
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.18 +/- 0.51
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 3.35 +/- 9.79
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -310,13 +310,13 @@ model-index:
       type: atari-bankheist
     metrics:
     - type: total_reward
-      value: 948.30 +/- 199.86
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.71 +/- 0.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.26 +/- 0.27
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -326,13 +326,13 @@ model-index:
       type: atari-battlezone
     metrics:
     - type: total_reward
-      value: 17420.00 +/- 6071.54
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.06 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.47 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -342,13 +342,13 @@ model-index:
       type: atari-beamrider
     metrics:
     - type: total_reward
-      value: 797.32 +/- 328.31
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.03 +/- 0.02
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -358,13 +358,13 @@ model-index:
       type: atari-berzerk
     metrics:
     - type: total_reward
-      value: 687.30 +/- 331.91
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.22 +/- 0.13
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -374,7 +374,7 @@ model-index:
       type: atari-bowling
     metrics:
     - type: total_reward
-      value: 22.41 +/- 5.57
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.00
@@ -390,13 +390,13 @@ model-index:
       type: atari-boxing
     metrics:
     - type: total_reward
-      value: 90.10 +/- 23.05
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.92 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 7.50 +/- 1.92
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -406,13 +406,13 @@ model-index:
       type: atari-breakout
     metrics:
     - type: total_reward
-      value: 8.82 +/- 5.63
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.25 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -422,13 +422,13 @@ model-index:
       type: atari-centipede
     metrics:
     - type: total_reward
-      value: 5589.92 +/- 2567.26
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.37 +/- 0.27
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.35 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -438,13 +438,13 @@ model-index:
       type: atari-choppercommand
     metrics:
     - type: total_reward
-      value: 2417.00 +/- 1489.90
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.24 +/- 0.23
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -454,13 +454,13 @@ model-index:
       type: atari-crazyclimber
     metrics:
     - type: total_reward
-      value: 97639.00 +/- 26184.68
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.52 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 3.47 +/- 1.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -470,13 +470,13 @@ model-index:
       type: atari-defender
     metrics:
     - type: total_reward
-      value: 39323.50 +/- 15202.98
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.10 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 2.30 +/- 0.96
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -486,13 +486,13 @@ model-index:
       type: atari-demonattack
     metrics:
     - type: total_reward
-      value: 815.30 +/- 989.67
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.36 +/- 0.54
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -502,13 +502,13 @@ model-index:
       type: atari-doubledunk
     metrics:
     - type: total_reward
-      value: 14.42 +/- 9.97
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.84 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.94 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -518,13 +518,13 @@ model-index:
       type: atari-enduro
     metrics:
     - type: total_reward
-      value: 108.52 +/- 42.73
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.05 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.13 +/- 0.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -534,13 +534,13 @@ model-index:
       type: atari-fishingderby
     metrics:
     - type: total_reward
-      value: -30.35 +/- 24.37
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.62 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.47 +/- 0.19
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -550,10 +550,10 @@ model-index:
       type: atari-freeway
     metrics:
     - type: total_reward
-      value: 27.49 +/- 1.63
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.81 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.93 +/- 0.06
@@ -566,13 +566,13 @@ model-index:
       type: atari-frostbite
     metrics:
     - type: total_reward
-      value: 2769.60 +/- 1445.61
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.21 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.63 +/- 0.34
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -582,13 +582,13 @@ model-index:
       type: atari-gopher
     metrics:
     - type: total_reward
-      value: 5340.60 +/- 2547.07
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.06 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 2.36 +/- 1.18
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -598,13 +598,13 @@ model-index:
       type: atari-gravitar
     metrics:
     - type: total_reward
-      value: 1269.50 +/- 902.99
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.29 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.34 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -614,13 +614,13 @@ model-index:
       type: atari-hero
     metrics:
     - type: total_reward
-      value: 11709.65 +/- 3233.53
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.24 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.36 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -630,13 +630,13 @@ model-index:
       type: atari-icehockey
     metrics:
     - type: total_reward
-      value: 7.48 +/- 5.60
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.51 +/- 0.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.54 +/- 0.46
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -646,13 +646,13 @@ model-index:
       type: atari-jamesbond
     metrics:
     - type: total_reward
-      value: 327.50 +/- 123.16
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.09 +/- 0.45
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -662,13 +662,13 @@ model-index:
       type: atari-kangaroo
     metrics:
     - type: total_reward
-      value: 378.00 +/- 343.97
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.62 +/- 0.66
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.11 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -678,13 +678,13 @@ model-index:
       type: atari-krull
     metrics:
     - type: total_reward
-      value: 10720.50 +/- 1284.13
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.93 +/- 0.13
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 8.55 +/- 1.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -694,13 +694,13 @@ model-index:
       type: atari-kungfumaster
     metrics:
     - type: total_reward
-      value: 288.00 +/- 255.06
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.00 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.00 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -726,13 +726,13 @@ model-index:
       type: atari-mspacman
     metrics:
     - type: total_reward
-      value: 1573.10 +/- 483.96
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.19 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.19 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -742,13 +742,13 @@ model-index:
       type: atari-namethisgame
     metrics:
     - type: total_reward
-      value: 7523.30 +/- 2471.38
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.25 +/- 0.12
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.91 +/- 0.43
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -758,13 +758,13 @@ model-index:
       type: atari-phoenix
     metrics:
     - type: total_reward
-      value: 2197.90 +/- 1795.38
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.22 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -774,10 +774,10 @@ model-index:
       type: atari-pitfall
     metrics:
     - type: total_reward
-      value: -6.68 +/- 19.05
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.98 +/- 0.08
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.03 +/- 0.00
@@ -790,13 +790,13 @@ model-index:
       type: atari-pong
     metrics:
     - type: total_reward
-      value: 13.69 +/- 13.35
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.82 +/- 0.32
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.97 +/- 0.38
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -822,13 +822,13 @@ model-index:
       type: atari-qbert
     metrics:
     - type: total_reward
-      value: 1951.50 +/- 2577.24
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.13 +/- 0.19
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -838,13 +838,13 @@ model-index:
       type: atari-riverraid
     metrics:
     - type: total_reward
-      value: 3758.50 +/- 1536.66
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.18 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.15 +/- 0.10
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -854,13 +854,13 @@ model-index:
       type: atari-roadrunner
     metrics:
     - type: total_reward
-      value: 6407.00 +/- 4847.36
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.08 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.82 +/- 0.62
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -870,13 +870,13 @@ model-index:
       type: atari-robotank
     metrics:
     - type: total_reward
-      value: 11.34 +/- 5.52
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.12 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.94 +/- 0.57
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -886,10 +886,10 @@ model-index:
       type: atari-seaquest
     metrics:
     - type: total_reward
-      value: 804.00 +/- 403.33
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.29 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.02 +/- 0.01
@@ -902,13 +902,13 @@ model-index:
       type: atari-skiing
     metrics:
     - type: total_reward
-      value: -16231.54 +/- 6060.48
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.14 +/- 0.95
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.07 +/- 0.47
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -918,13 +918,13 @@ model-index:
       type: atari-solaris
     metrics:
     - type: total_reward
-      value: 1286.60 +/- 446.70
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.43 +/- 3.81
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.00 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -934,13 +934,13 @@ model-index:
       type: atari-spaceinvaders
     metrics:
     - type: total_reward
-      value: 325.45 +/- 163.36
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.12 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -950,13 +950,13 @@ model-index:
       type: atari-stargunner
     metrics:
     - type: total_reward
-      value: 4379.00 +/- 3027.22
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.39 +/- 0.32
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -966,13 +966,13 @@ model-index:
       type: atari-surround
     metrics:
     - type: total_reward
-      value: 2.67 +/- 4.74
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.65 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.77 +/- 0.29
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -982,13 +982,13 @@ model-index:
       type: atari-tennis
     metrics:
     - type: total_reward
-      value: -13.46 +/- 3.80
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.30 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.32 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -998,13 +998,13 @@ model-index:
       type: atari-timepilot
     metrics:
     - type: total_reward
-      value: 13028.00 +/- 5222.57
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.14 +/- 0.08
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 5.69 +/- 3.14
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1014,13 +1014,13 @@ model-index:
       type: atari-tutankham
     metrics:
     - type: total_reward
-      value: 85.66 +/- 61.77
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.27 +/- 0.22
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.48 +/- 0.40
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1030,13 +1030,13 @@ model-index:
       type: atari-upndown
     metrics:
     - type: total_reward
-      value: 17768.70 +/- 10321.95
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.04 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 1.54 +/- 0.92
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1062,13 +1062,13 @@ model-index:
       type: atari-videopinball
     metrics:
     - type: total_reward
-      value: 11917.43 +/- 8204.28
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.03 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.67 +/- 0.46
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1078,13 +1078,13 @@ model-index:
       type: atari-wizardofwor
     metrics:
     - type: total_reward
-      value: 2544.00 +/- 2902.42
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.47 +/- 0.69
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1094,13 +1094,13 @@ model-index:
       type: atari-yarsrevenge
     metrics:
     - type: total_reward
-      value: 12532.70 +/- 8062.85
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.04 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.18 +/- 0.16
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1110,13 +1110,13 @@ model-index:
       type: atari-zaxxon
     metrics:
     - type: total_reward
-      value: 6902.00 +/- 3206.09
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.09 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
-      value: 0.75 +/- 0.35
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
@@ -1126,10 +1126,10 @@ model-index:
       type: babyai-action-obj-door
     metrics:
     - type: total_reward
-      value: 0.95 +/- 0.13
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.94 +/- 0.22
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1152,10 +1152,10 @@ model-index:
       type: babyai-boss-level-no-unlock
     metrics:
     - type: total_reward
-      value: 0.44 +/- 0.45
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.43 +/- 0.51
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1165,10 +1165,10 @@ model-index:
       type: babyai-boss-level
     metrics:
     - type: total_reward
-      value: 0.48 +/- 0.45
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.48 +/- 0.51
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1178,7 +1178,7 @@ model-index:
       type: babyai-find-obj-s5
     metrics:
     - type: total_reward
-      value: 0.95 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.04
@@ -1191,10 +1191,10 @@ model-index:
       type: babyai-go-to-door
     metrics:
     - type: total_reward
-      value: 0.99 +/- 0.01
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.00 +/- 0.01
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1204,10 +1204,10 @@ model-index:
       type: babyai-go-to-imp-unlock
     metrics:
     - type: total_reward
-      value: 0.50 +/- 0.44
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.56 +/- 0.59
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1217,10 +1217,10 @@ model-index:
       type: babyai-go-to-local
     metrics:
     - type: total_reward
-      value: 0.88 +/- 0.14
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.94 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1233,7 +1233,7 @@ model-index:
       value: 0.98 +/- 0.04
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.08
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1243,10 +1243,10 @@ model-index:
       type: babyai-go-to-obj
     metrics:
     - type: total_reward
-      value: 0.93 +/- 0.04
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1256,10 +1256,10 @@ model-index:
       type: babyai-go-to-red-ball-grey
     metrics:
     - type: total_reward
-      value: 0.91 +/- 0.06
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.08
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1272,7 +1272,7 @@ model-index:
       value: 0.93 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.00 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1282,10 +1282,10 @@ model-index:
       type: babyai-go-to-red-ball
     metrics:
     - type: total_reward
-      value: 0.91 +/- 0.08
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.98 +/- 0.11
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1295,10 +1295,10 @@ model-index:
       type: babyai-go-to-red-blue-ball
     metrics:
     - type: total_reward
-      value: 0.88 +/- 0.11
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.96 +/- 0.13
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1308,10 +1308,10 @@ model-index:
       type: babyai-go-to-seq
     metrics:
     - type: total_reward
-      value: 0.73 +/- 0.34
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.75 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1321,10 +1321,10 @@ model-index:
       type: babyai-go-to
     metrics:
     - type: total_reward
-      value: 0.80 +/- 0.27
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.85 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1334,10 +1334,10 @@ model-index:
       type: babyai-key-corridor
     metrics:
     - type: total_reward
-      value: 0.88 +/- 0.10
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.11
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1347,10 +1347,10 @@ model-index:
       type: babyai-mini-boss-level
     metrics:
     - type: total_reward
-      value: 0.69 +/- 0.35
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.76 +/- 0.43
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1360,10 +1360,10 @@ model-index:
       type: babyai-move-two-across-s8n9
     metrics:
     - type: total_reward
-      value: 0.03 +/- 0.15
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.03 +/- 0.16
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1373,7 +1373,7 @@ model-index:
       type: babyai-one-room-s8
     metrics:
     - type: total_reward
-      value: 0.92 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.04
@@ -1399,10 +1399,10 @@ model-index:
       type: babyai-open-doors-order-n4
     metrics:
     - type: total_reward
-      value: 0.96 +/- 0.11
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.13
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1412,7 +1412,7 @@ model-index:
       type: babyai-open-red-door
     metrics:
     - type: total_reward
-      value: 0.92 +/- 0.02
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.03
@@ -1438,10 +1438,10 @@ model-index:
       type: babyai-open
     metrics:
     - type: total_reward
-      value: 0.93 +/- 0.11
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.13
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1464,10 +1464,10 @@ model-index:
       type: babyai-pickup-dist
     metrics:
     - type: total_reward
-      value: 0.88 +/- 0.13
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.03 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1477,10 +1477,10 @@ model-index:
       type: babyai-pickup-loc
     metrics:
     - type: total_reward
-      value: 0.84 +/- 0.20
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.91 +/- 0.24
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1490,10 +1490,10 @@ model-index:
       type: babyai-pickup
     metrics:
     - type: total_reward
-      value: 0.72 +/- 0.34
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.77 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1503,10 +1503,10 @@ model-index:
       type: babyai-put-next-local
     metrics:
     - type: total_reward
-      value: 0.60 +/- 0.36
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.65 +/- 0.39
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1516,10 +1516,10 @@ model-index:
       type: babyai-put-next
     metrics:
     - type: total_reward
-      value: 0.82 +/- 0.26
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.86 +/- 0.27
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1529,10 +1529,10 @@ model-index:
       type: babyai-synth-loc
     metrics:
     - type: total_reward
-      value: 0.82 +/- 0.31
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.85 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1542,10 +1542,10 @@ model-index:
       type: babyai-synth-seq
     metrics:
     - type: total_reward
-      value: 0.57 +/- 0.44
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.57 +/- 0.50
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1555,10 +1555,10 @@ model-index:
       type: babyai-synth
     metrics:
     - type: total_reward
-      value: 0.68 +/- 0.39
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.69 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1568,10 +1568,10 @@ model-index:
       type: babyai-unblock-pickup
     metrics:
     - type: total_reward
-      value: 0.76 +/- 0.33
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.82 +/- 0.39
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1594,10 +1594,10 @@ model-index:
       type: babyai-unlock-pickup
     metrics:
     - type: total_reward
-      value: 0.76 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.01 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1607,10 +1607,10 @@ model-index:
       type: babyai-unlock-to-unlock
     metrics:
     - type: total_reward
-      value: 0.86 +/- 0.29
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.89 +/- 0.30
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1620,10 +1620,10 @@ model-index:
       type: babyai-unlock
     metrics:
     - type: total_reward
-      value: 0.55 +/- 0.42
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.63 +/- 0.50
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1633,10 +1633,10 @@ model-index:
       type: metaworld-assembly
     metrics:
     - type: total_reward
-      value: 238.32 +/- 32.98
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.96 +/- 0.16
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1646,7 +1646,7 @@ model-index:
       type: metaworld-basketball
     metrics:
     - type: total_reward
-      value: 1.59 +/- 0.43
       name: Total reward
     - type: expert_normalized_total_reward
       value: -0.00 +/- 0.00
@@ -1659,10 +1659,10 @@ model-index:
       type: metaworld-bin-picking
     metrics:
     - type: total_reward
-      value: 374.18 +/- 168.23
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.88 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1672,10 +1672,10 @@ model-index:
       type: metaworld-box-close
     metrics:
     - type: total_reward
-      value: 510.10 +/- 117.47
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.27
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1685,10 +1685,10 @@ model-index:
       type: metaworld-button-press-topdown-wall
     metrics:
     - type: total_reward
-      value: 260.07 +/- 67.75
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.49 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1698,10 +1698,10 @@ model-index:
       type: metaworld-button-press-topdown
     metrics:
     - type: total_reward
-      value: 265.16 +/- 77.93
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.51 +/- 0.17
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1711,10 +1711,10 @@ model-index:
       type: metaworld-button-press-wall
     metrics:
     - type: total_reward
-      value: 621.75 +/- 137.13
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.92 +/- 0.21
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1724,10 +1724,10 @@ model-index:
       type: metaworld-button-press
     metrics:
     - type: total_reward
-      value: 556.75 +/- 198.85
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.86 +/- 0.33
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1737,10 +1737,10 @@ model-index:
       type: metaworld-coffee-button
     metrics:
     - type: total_reward
-      value: 250.50 +/- 266.92
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.31 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1750,10 +1750,10 @@ model-index:
       type: metaworld-coffee-pull
     metrics:
     - type: total_reward
-      value: 55.13 +/- 96.96
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.20 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1763,10 +1763,10 @@ model-index:
       type: metaworld-coffee-push
     metrics:
     - type: total_reward
-      value: 269.17 +/- 237.82
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.54 +/- 0.48
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1776,10 +1776,10 @@ model-index:
       type: metaworld-dial-turn
     metrics:
     - type: total_reward
-      value: 738.22 +/- 168.43
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.93 +/- 0.22
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1789,10 +1789,10 @@ model-index:
       type: metaworld-disassemble
     metrics:
     - type: total_reward
-      value: 39.14 +/- 11.85
       name: Total reward
     - type: expert_normalized_total_reward
-      value: -0.47 +/- 4.70
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1802,7 +1802,7 @@ model-index:
       type: metaworld-door-close
     metrics:
     - type: total_reward
-      value: 528.17 +/- 29.90
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.06
@@ -1815,7 +1815,7 @@ model-index:
       type: metaworld-door-lock
     metrics:
     - type: total_reward
-      value: 676.51 +/- 192.68
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.81 +/- 0.28
@@ -1828,10 +1828,10 @@ model-index:
       type: metaworld-door-open
     metrics:
     - type: total_reward
-      value: 572.76 +/- 57.53
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.98 +/- 0.11
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1841,10 +1841,10 @@ model-index:
       type: metaworld-door-unlock
     metrics:
     - type: total_reward
-      value: 654.94 +/- 260.64
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.79 +/- 0.37
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1854,10 +1854,10 @@ model-index:
       type: metaworld-drawer-close
     metrics:
     - type: total_reward
-      value: 663.02 +/- 214.51
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.73 +/- 0.29
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1867,10 +1867,10 @@ model-index:
       type: metaworld-drawer-open
     metrics:
     - type: total_reward
-      value: 489.07 +/- 21.28
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.06
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1880,10 +1880,10 @@ model-index:
       type: metaworld-faucet-close
     metrics:
     - type: total_reward
-      value: 361.32 +/- 72.28
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.22 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1893,10 +1893,10 @@ model-index:
       type: metaworld-faucet-open
     metrics:
     - type: total_reward
-      value: 637.86 +/- 134.50
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.85 +/- 0.29
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1906,10 +1906,10 @@ model-index:
       type: metaworld-hammer
     metrics:
     - type: total_reward
-      value: 691.72 +/- 25.25
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.00 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1919,10 +1919,10 @@ model-index:
       type: metaworld-hand-insert
     metrics:
     - type: total_reward
-      value: 719.57 +/- 99.26
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.13
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1932,10 +1932,10 @@ model-index:
       type: metaworld-handle-press-side
     metrics:
     - type: total_reward
-      value: 84.25 +/- 113.34
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.03 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1945,10 +1945,10 @@ model-index:
       type: metaworld-handle-press
     metrics:
     - type: total_reward
-      value: 731.94 +/- 261.90
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.84 +/- 0.34
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1958,10 +1958,10 @@ model-index:
       type: metaworld-handle-pull-side
     metrics:
     - type: total_reward
-      value: 233.11 +/- 199.49
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.60 +/- 0.52
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1971,10 +1971,10 @@ model-index:
       type: metaworld-handle-pull
     metrics:
     - type: total_reward
-      value: 501.29 +/- 209.45
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.74 +/- 0.32
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1984,10 +1984,10 @@ model-index:
       type: metaworld-lever-pull
     metrics:
     - type: total_reward
-      value: 250.18 +/- 228.59
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.34 +/- 0.41
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -1997,10 +1997,10 @@ model-index:
       type: metaworld-peg-insert-side
     metrics:
     - type: total_reward
-      value: 288.02 +/- 157.87
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.91 +/- 0.50
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2010,10 +2010,10 @@ model-index:
       type: metaworld-peg-unplug-side
     metrics:
     - type: total_reward
-      value: 68.48 +/- 125.34
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.14 +/- 0.28
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2036,10 +2036,10 @@ model-index:
       type: metaworld-pick-place-wall
     metrics:
     - type: total_reward
-      value: 6.87 +/- 44.99
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.02 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2049,10 +2049,10 @@ model-index:
       type: metaworld-pick-place
     metrics:
     - type: total_reward
-      value: 264.18 +/- 195.69
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.63 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2062,10 +2062,10 @@ model-index:
       type: metaworld-plate-slide-back-side
     metrics:
     - type: total_reward
-      value: 697.54 +/- 137.79
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.95 +/- 0.20
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2075,7 +2075,7 @@ model-index:
       type: metaworld-plate-slide-back
     metrics:
     - type: total_reward
-      value: 196.80 +/- 1.73
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.24 +/- 0.00
@@ -2088,7 +2088,7 @@ model-index:
       type: metaworld-plate-slide-side
     metrics:
     - type: total_reward
-      value: 122.61 +/- 24.52
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.16 +/- 0.04
@@ -2101,10 +2101,10 @@ model-index:
       type: metaworld-plate-slide
     metrics:
     - type: total_reward
-      value: 497.42 +/- 168.74
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.93 +/- 0.37
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2114,10 +2114,10 @@ model-index:
       type: metaworld-push-back
     metrics:
     - type: total_reward
-      value: 91.41 +/- 115.05
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.08 +/- 1.37
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2127,10 +2127,10 @@ model-index:
       type: metaworld-push-wall
     metrics:
     - type: total_reward
-      value: 116.49 +/- 208.05
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.15 +/- 0.28
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2140,10 +2140,10 @@ model-index:
       type: metaworld-push
     metrics:
     - type: total_reward
-      value: 604.25 +/- 261.90
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.80 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2153,10 +2153,10 @@ model-index:
       type: metaworld-reach-wall
     metrics:
     - type: total_reward
-      value: 634.57 +/- 231.40
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.81 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2166,10 +2166,10 @@ model-index:
       type: metaworld-reach
     metrics:
     - type: total_reward
-      value: 325.27 +/- 159.21
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.33 +/- 0.30
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2179,10 +2179,10 @@ model-index:
       type: metaworld-shelf-place
     metrics:
     - type: total_reward
-      value: 124.60 +/- 112.83
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.52 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2192,10 +2192,10 @@ model-index:
       type: metaworld-soccer
     metrics:
     - type: total_reward
-      value: 364.50 +/- 175.45
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2205,10 +2205,10 @@ model-index:
       type: metaworld-stick-pull
     metrics:
     - type: total_reward
-      value: 398.64 +/- 205.60
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.76 +/- 0.39
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2218,10 +2218,10 @@ model-index:
       type: metaworld-stick-push
     metrics:
     - type: total_reward
-      value: 158.29 +/- 264.59
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.25 +/- 0.42
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2231,10 +2231,10 @@ model-index:
       type: metaworld-sweep-into
     metrics:
     - type: total_reward
-      value: 775.30 +/- 119.00
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.97 +/- 0.15
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2244,10 +2244,10 @@ model-index:
       type: metaworld-sweep
     metrics:
     - type: total_reward
-      value: 15.64 +/- 9.29
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.01 +/- 0.02
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2257,10 +2257,10 @@ model-index:
       type: metaworld-window-close
     metrics:
     - type: total_reward
-      value: 423.33 +/- 203.92
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.69 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2270,10 +2270,10 @@ model-index:
       type: metaworld-window-open
     metrics:
     - type: total_reward
-      value: 593.10 +/- 54.83
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.00 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2283,10 +2283,10 @@ model-index:
       type: mujoco-ant
     metrics:
     - type: total_reward
-      value: 5268.02 +/- 1495.39
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.90 +/- 0.25
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2296,10 +2296,10 @@ model-index:
       type: mujoco-doublependulum
     metrics:
     - type: total_reward
-      value: 4750.14 +/- 931.20
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.51 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2309,10 +2309,10 @@ model-index:
       type: mujoco-halfcheetah
     metrics:
     - type: total_reward
-      value: 6659.69 +/- 409.71
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.90 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2322,10 +2322,10 @@ model-index:
       type: mujoco-hopper
     metrics:
     - type: total_reward
-      value: 1835.93 +/- 532.21
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.29
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2335,7 +2335,7 @@ model-index:
       type: mujoco-humanoid
     metrics:
     - type: total_reward
-      value: 697.44 +/- 108.06
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.09 +/- 0.02
@@ -2348,10 +2348,10 @@ model-index:
       type: mujoco-pendulum
     metrics:
     - type: total_reward
-      value: 116.34 +/- 20.19
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.23 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2361,10 +2361,10 @@ model-index:
       type: mujoco-pusher
     metrics:
     - type: total_reward
-      value: -26.33 +/- 6.32
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2374,10 +2374,10 @@ model-index:
       type: mujoco-reacher
     metrics:
     - type: total_reward
-      value: -6.06 +/- 2.64
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.99 +/- 0.07
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2387,10 +2387,10 @@ model-index:
       type: mujoco-standup
     metrics:
     - type: total_reward
-      value: 118125.15 +/- 24880.28
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 0.35 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2400,10 +2400,10 @@ model-index:
       type: mujoco-swimmer
     metrics:
     - type: total_reward
-      value: 93.26 +/- 3.78
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.01 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
@@ -2413,10 +2413,10 @@ model-index:
       type: mujoco-walker
     metrics:
     - type: total_reward
-      value: 4662.43 +/- 762.67
       name: Total reward
     - type: expert_normalized_total_reward
-      value: 1.01 +/- 0.16
       name: Expert normalized total reward
 ---
@@ -2440,7 +2440,8 @@ This is a multi-modal and multi-task model.
 ## Training
 <details>
-  <summary>The model was trained on the following tasks:</summary>
 - Alien
 - Amidar
 - Assault
@@ -2610,4 +2611,3 @@ from transformers import AutoModelForCausalLM
 model = AutoModelForCausalLM.from_pretrained("jat-project/jat")
 ```

       value: 0.14 [0.14, 0.15]
       name: IQM expert normalized total reward
     - type: iqm_human_normalized_total_reward
+      value: 0.38 [0.37, 0.39]
       name: IQM human normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld
     metrics:
     - type: iqm_expert_normalized_total_reward
+      value: 0.65 [0.64, 0.67]
       name: IQM expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco
     metrics:
     - type: iqm_expert_normalized_total_reward
+      value: 0.85 [0.83, 0.86]
       name: IQM expert normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-alien
     metrics:
     - type: total_reward
+      value: 1518.70 +/- 568.14
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.08 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.19 +/- 0.08
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-amidar
     metrics:
     - type: total_reward
+      value: 89.17 +/- 78.73
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.05 +/- 0.05
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-assault
     metrics:
     - type: total_reward
+      value: 1676.91 +/- 780.73
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.09 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.80 +/- 1.50
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-asterix
     metrics:
     - type: total_reward
+      value: 844.50 +/- 546.85
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.18 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.08 +/- 0.07
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-asteroids
     metrics:
     - type: total_reward
+      value: 1357.90 +/- 453.01
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       type: atari-atlantis
     metrics:
     - type: total_reward
+      value: 51843.00 +/- 123857.07
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.13 +/- 0.40
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.41 +/- 7.66
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-bankheist
     metrics:
     - type: total_reward
+      value: 977.80 +/- 156.49
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.74 +/- 0.12
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.30 +/- 0.21
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-battlezone
     metrics:
     - type: total_reward
+      value: 16780.00 +/- 6926.15
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.06 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.45 +/- 0.19
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-beamrider
     metrics:
     - type: total_reward
+      value: 768.36 +/- 364.06
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.02 +/- 0.02
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-berzerk
     metrics:
     - type: total_reward
+      value: 616.20 +/- 296.08
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.20 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-bowling
     metrics:
     - type: total_reward
+      value: 22.32 +/- 5.18
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.00
       type: atari-boxing
     metrics:
     - type: total_reward
+      value: 92.31 +/- 18.24
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.94 +/- 0.19
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 7.68 +/- 1.52
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-breakout
     metrics:
     - type: total_reward
+      value: 7.93 +/- 5.66
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.22 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-centipede
     metrics:
     - type: total_reward
+      value: 5888.27 +/- 2594.62
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.40 +/- 0.27
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.38 +/- 0.26
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-choppercommand
     metrics:
     - type: total_reward
+      value: 2371.00 +/- 1195.43
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.02 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.24 +/- 0.18
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-crazyclimber
     metrics:
     - type: total_reward
+      value: 97145.00 +/- 30388.04
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.51 +/- 0.18
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 3.45 +/- 1.21
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-defender
     metrics:
     - type: total_reward
+      value: 39317.50 +/- 16246.15
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.10 +/- 0.05
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.30 +/- 1.03
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-demonattack
     metrics:
     - type: total_reward
+      value: 795.10 +/- 982.55
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.35 +/- 0.54
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-doubledunk
     metrics:
     - type: total_reward
+      value: 13.40 +/- 11.07
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.81 +/- 0.28
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.91 +/- 0.32
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-enduro
     metrics:
     - type: total_reward
+      value: 103.11 +/- 28.05
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.04 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.12 +/- 0.03
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-fishingderby
     metrics:
     - type: total_reward
+      value: -31.67 +/- 22.54
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.61 +/- 0.23
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.46 +/- 0.17
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-freeway
     metrics:
     - type: total_reward
+      value: 27.57 +/- 1.87
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.81 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.93 +/- 0.06
       type: atari-frostbite
     metrics:
     - type: total_reward
+      value: 2875.60 +/- 1679.84
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.21 +/- 0.13
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.66 +/- 0.39
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-gopher
     metrics:
     - type: total_reward
+      value: 5508.80 +/- 2802.03
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.06 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 2.44 +/- 1.30
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-gravitar
     metrics:
     - type: total_reward
+      value: 1330.50 +/- 918.23
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.30 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.36 +/- 0.29
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-hero
     metrics:
     - type: total_reward
+      value: 11932.00 +/- 3036.87
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.25 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.37 +/- 0.10
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-icehockey
     metrics:
     - type: total_reward
+      value: 7.61 +/- 5.28
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.52 +/- 0.15
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.55 +/- 0.44
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-jamesbond
     metrics:
     - type: total_reward
+      value: 425.00 +/- 632.51
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.45 +/- 2.31
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-kangaroo
     metrics:
     - type: total_reward
+      value: 375.00 +/- 314.13
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.62 +/- 0.60
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.11 +/- 0.11
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-krull
     metrics:
     - type: total_reward
+      value: 10743.30 +/- 1311.26
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.93 +/- 0.13
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 8.57 +/- 1.23
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-kungfumaster
     metrics:
     - type: total_reward
+      value: 253.00 +/- 233.86
       name: Total reward
     - type: expert_normalized_total_reward
+      value: -0.00 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: -0.00 +/- 0.01
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-mspacman
     metrics:
     - type: total_reward
+      value: 1610.10 +/- 504.08
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.20 +/- 0.08
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.20 +/- 0.08
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-namethisgame
     metrics:
     - type: total_reward
+      value: 7726.40 +/- 2166.18
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.26 +/- 0.10
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.94 +/- 0.38
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-phoenix
     metrics:
     - type: total_reward
+      value: 1814.20 +/- 1275.29
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.00 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.16 +/- 0.20
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-pitfall
     metrics:
     - type: total_reward
+      value: -4.61 +/- 15.86
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.99 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.03 +/- 0.00
       type: atari-pong
     metrics:
     - type: total_reward
+      value: 16.54 +/- 10.34
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.89 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.05 +/- 0.29
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-qbert
     metrics:
     - type: total_reward
+      value: 2118.50 +/- 2764.25
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.05 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.15 +/- 0.21
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-riverraid
     metrics:
     - type: total_reward
+      value: 3925.20 +/- 1530.94
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.19 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.16 +/- 0.10
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-roadrunner
     metrics:
     - type: total_reward
+      value: 6929.00 +/- 5577.35
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.09 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.88 +/- 0.71
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-robotank
     metrics:
     - type: total_reward
+      value: 10.22 +/- 4.71
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.10 +/- 0.06
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.83 +/- 0.49
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-seaquest
     metrics:
     - type: total_reward
+      value: 859.80 +/- 407.80
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.31 +/- 0.16
       name: Expert normalized total reward
     - type: human_normalized_total_reward
       value: 0.02 +/- 0.01
       type: atari-skiing
     metrics:
     - type: total_reward
+      value: -15960.04 +/- 5887.52
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.18 +/- 0.93
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.09 +/- 0.46
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-solaris
     metrics:
     - type: total_reward
+      value: 1202.60 +/- 445.27
       name: Total reward
     - type: expert_normalized_total_reward
+      value: -0.29 +/- 3.79
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: -0.00 +/- 0.04
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-spaceinvaders
     metrics:
     - type: total_reward
+      value: 326.85 +/- 141.89
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.00
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.12 +/- 0.09
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-stargunner
     metrics:
     - type: total_reward
+      value: 5219.00 +/- 3544.03
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.01 +/- 0.01
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.48 +/- 0.37
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-surround
     metrics:
     - type: total_reward
+      value: 1.52 +/- 4.60
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.59 +/- 0.24
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.70 +/- 0.28
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-tennis
     metrics:
     - type: total_reward
+      value: -12.80 +/- 3.70
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.32 +/- 0.11
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.34 +/- 0.12
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-timepilot
     metrics:
     - type: total_reward
+      value: 11603.00 +/- 4323.25
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.12 +/- 0.07
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 4.84 +/- 2.60
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-tutankham
     metrics:
     - type: total_reward
+      value: 108.82 +/- 70.14
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.35 +/- 0.25
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.62 +/- 0.45
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-upndown
     metrics:
     - type: total_reward
+      value: 19074.60 +/- 9961.77
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.04 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 1.66 +/- 0.89
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-videopinball
     metrics:
     - type: total_reward
+      value: 12466.69 +/- 8723.07
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.03 +/- 0.02
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.71 +/- 0.49
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-wizardofwor
     metrics:
     - type: total_reward
+      value: 2231.00 +/- 2042.92
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.03 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.40 +/- 0.49
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-yarsrevenge
     metrics:
     - type: total_reward
+      value: 11190.85 +/- 7342.58
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.03 +/- 0.03
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.16 +/- 0.14
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: atari-zaxxon
     metrics:
     - type: total_reward
+      value: 5976.00 +/- 2889.54
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.08 +/- 0.04
       name: Expert normalized total reward
     - type: human_normalized_total_reward
+      value: 0.65 +/- 0.32
       name: Human normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-action-obj-door
     metrics:
     - type: total_reward
+      value: 0.92 +/- 0.22
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.88 +/- 0.36
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-boss-level-no-unlock
     metrics:
     - type: total_reward
+      value: 0.49 +/- 0.43
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.49 +/- 0.49
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-boss-level
     metrics:
     - type: total_reward
+      value: 0.54 +/- 0.43
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.54 +/- 0.49
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-find-obj-s5
     metrics:
     - type: total_reward
+      value: 0.94 +/- 0.04
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.04
       type: babyai-go-to-door
     metrics:
     - type: total_reward
+      value: 0.99 +/- 0.02
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.03
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-imp-unlock
     metrics:
     - type: total_reward
+      value: 0.53 +/- 0.41
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.60 +/- 0.55
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-local
     metrics:
     - type: total_reward
+      value: 0.87 +/- 0.16
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.93 +/- 0.22
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       value: 0.98 +/- 0.04
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.98 +/- 0.08
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-obj
     metrics:
     - type: total_reward
+      value: 0.94 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.01 +/- 0.03
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-red-ball-grey
     metrics:
     - type: total_reward
+      value: 0.92 +/- 0.05
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.06
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       value: 0.93 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.03
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-red-ball
     metrics:
     - type: total_reward
+      value: 0.91 +/- 0.09
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.98 +/- 0.12
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-red-blue-ball
     metrics:
     - type: total_reward
+      value: 0.91 +/- 0.08
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.99 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to-seq
     metrics:
     - type: total_reward
+      value: 0.73 +/- 0.33
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.76 +/- 0.38
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-go-to
     metrics:
     - type: total_reward
+      value: 0.78 +/- 0.28
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.82 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-key-corridor
     metrics:
     - type: total_reward
+      value: 0.87 +/- 0.13
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.96 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-mini-boss-level
     metrics:
     - type: total_reward
+      value: 0.53 +/- 0.41
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.56 +/- 0.50
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-move-two-across-s8n9
     metrics:
     - type: total_reward
+      value: 0.05 +/- 0.19
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.05 +/- 0.20
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-one-room-s8
     metrics:
     - type: total_reward
+      value: 0.92 +/- 0.04
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.04
       type: babyai-open-doors-order-n4
     metrics:
     - type: total_reward
+      value: 0.96 +/- 0.14
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.96 +/- 0.17
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-open-red-door
     metrics:
     - type: total_reward
+      value: 0.92 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.03
       type: babyai-open
     metrics:
     - type: total_reward
+      value: 0.95 +/- 0.08
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.99 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-pickup-dist
     metrics:
     - type: total_reward
+      value: 0.87 +/- 0.12
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.02 +/- 0.16
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-pickup-loc
     metrics:
     - type: total_reward
+      value: 0.85 +/- 0.19
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.92 +/- 0.23
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-pickup
     metrics:
     - type: total_reward
+      value: 0.79 +/- 0.30
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.85 +/- 0.36
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-put-next-local
     metrics:
     - type: total_reward
+      value: 0.67 +/- 0.32
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.73 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-put-next
     metrics:
     - type: total_reward
+      value: 0.85 +/- 0.25
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.89 +/- 0.26
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-synth-loc
     metrics:
     - type: total_reward
+      value: 0.77 +/- 0.34
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.78 +/- 0.43
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-synth-seq
     metrics:
     - type: total_reward
+      value: 0.57 +/- 0.43
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.58 +/- 0.49
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-synth
     metrics:
     - type: total_reward
+      value: 0.75 +/- 0.35
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.78 +/- 0.43
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-unblock-pickup
     metrics:
     - type: total_reward
+      value: 0.79 +/- 0.29
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.86 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-unlock-pickup
     metrics:
     - type: total_reward
+      value: 0.75 +/- 0.03
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-unlock-to-unlock
     metrics:
     - type: total_reward
+      value: 0.85 +/- 0.31
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.88 +/- 0.32
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: babyai-unlock
     metrics:
     - type: total_reward
+      value: 0.43 +/- 0.43
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.48 +/- 0.52
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-assembly
     metrics:
     - type: total_reward
+      value: 243.78 +/- 10.44
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.99 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-basketball
     metrics:
     - type: total_reward
+      value: 1.71 +/- 0.63
       name: Total reward
     - type: expert_normalized_total_reward
       value: -0.00 +/- 0.00
       type: metaworld-bin-picking
     metrics:
     - type: total_reward
+      value: 314.42 +/- 196.40
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.74 +/- 0.46
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-box-close
     metrics:
     - type: total_reward
+      value: 482.86 +/- 146.37
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.93 +/- 0.34
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-button-press-topdown-wall
     metrics:
     - type: total_reward
+      value: 268.30 +/- 82.78
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.51 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-button-press-topdown
     metrics:
     - type: total_reward
+      value: 269.14 +/- 82.81
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.52 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-button-press-wall
     metrics:
     - type: total_reward
+      value: 608.87 +/- 169.50
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.90 +/- 0.25
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-button-press
     metrics:
     - type: total_reward
+      value: 624.03 +/- 73.53
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.97 +/- 0.12
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-coffee-button
     metrics:
     - type: total_reward
+      value: 334.92 +/- 301.67
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.43 +/- 0.43
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-coffee-pull
     metrics:
     - type: total_reward
+      value: 38.00 +/- 63.97
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.13 +/- 0.25
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-coffee-push
     metrics:
     - type: total_reward
+      value: 151.38 +/- 207.69
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.30 +/- 0.42
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-dial-turn
     metrics:
     - type: total_reward
+      value: 752.25 +/- 138.50
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.95 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-disassemble
     metrics:
     - type: total_reward
+      value: 40.87 +/- 9.35
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.22 +/- 3.71
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-door-close
     metrics:
     - type: total_reward
+      value: 530.48 +/- 29.02
       name: Total reward
     - type: expert_normalized_total_reward
       value: 1.00 +/- 0.06
       type: metaworld-door-lock
     metrics:
     - type: total_reward
+      value: 678.98 +/- 194.57
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.81 +/- 0.28
       type: metaworld-door-open
     metrics:
     - type: total_reward
+      value: 574.71 +/- 50.82
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.99 +/- 0.10
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-door-unlock
     metrics:
     - type: total_reward
+      value: 761.82 +/- 114.70
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.94 +/- 0.16
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-drawer-close
     metrics:
     - type: total_reward
+      value: 519.05 +/- 154.38
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.54 +/- 0.21
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-drawer-open
     metrics:
     - type: total_reward
+      value: 486.02 +/- 34.17
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.98 +/- 0.09
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-faucet-close
     metrics:
     - type: total_reward
+      value: 366.78 +/- 86.77
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.23 +/- 0.17
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-faucet-open
     metrics:
     - type: total_reward
+      value: 685.01 +/- 65.52
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.96 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-hammer
     metrics:
     - type: total_reward
+      value: 678.36 +/- 79.36
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.98 +/- 0.13
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-hand-insert
     metrics:
     - type: total_reward
+      value: 695.27 +/- 134.25
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.94 +/- 0.18
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-handle-press-side
     metrics:
     - type: total_reward
+      value: 65.07 +/- 69.65
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.09
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-handle-press
     metrics:
     - type: total_reward
+      value: 695.97 +/- 311.48
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.79 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-handle-pull-side
     metrics:
     - type: total_reward
+      value: 145.34 +/- 179.01
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.37 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-handle-pull
     metrics:
     - type: total_reward
+      value: 514.56 +/- 205.75
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.77 +/- 0.31
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-lever-pull
     metrics:
     - type: total_reward
+      value: 250.51 +/- 220.33
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.34 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-peg-insert-side
     metrics:
     - type: total_reward
+      value: 305.94 +/- 166.53
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.97 +/- 0.53
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-peg-unplug-side
     metrics:
     - type: total_reward
+      value: 120.73 +/- 169.26
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.26 +/- 0.37
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-pick-place-wall
     metrics:
     - type: total_reward
+      value: 62.30 +/- 131.13
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.14 +/- 0.29
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-pick-place
     metrics:
     - type: total_reward
+      value: 311.95 +/- 180.95
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.74 +/- 0.43
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-plate-slide-back-side
     metrics:
     - type: total_reward
+      value: 689.54 +/- 157.90
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.94 +/- 0.23
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-plate-slide-back
     metrics:
     - type: total_reward
+      value: 197.00 +/- 1.58
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.24 +/- 0.00
       type: metaworld-plate-slide-side
     metrics:
     - type: total_reward
+      value: 122.56 +/- 24.56
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.16 +/- 0.04
       type: metaworld-plate-slide
     metrics:
     - type: total_reward
+      value: 456.66 +/- 198.51
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.84 +/- 0.44
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-push-back
     metrics:
     - type: total_reward
+      value: 71.38 +/- 100.60
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.84 +/- 1.20
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-push-wall
     metrics:
     - type: total_reward
+      value: 216.66 +/- 256.33
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.28 +/- 0.35
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-push
     metrics:
     - type: total_reward
+      value: 583.25 +/- 296.10
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.78 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-reach-wall
     metrics:
     - type: total_reward
+      value: 681.90 +/- 186.63
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.89 +/- 0.31
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-reach
     metrics:
     - type: total_reward
+      value: 347.45 +/- 190.66
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.37 +/- 0.36
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-shelf-place
     metrics:
     - type: total_reward
+      value: 60.57 +/- 97.16
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.25 +/- 0.40
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-soccer
     metrics:
     - type: total_reward
+      value: 309.21 +/- 172.64
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.82 +/- 0.47
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-stick-pull
     metrics:
     - type: total_reward
+      value: 364.98 +/- 234.82
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.70 +/- 0.45
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-stick-push
     metrics:
     - type: total_reward
+      value: 91.05 +/- 204.71
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.14 +/- 0.33
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-sweep-into
     metrics:
     - type: total_reward
+      value: 714.98 +/- 209.19
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.89 +/- 0.27
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-sweep
     metrics:
     - type: total_reward
+      value: 15.82 +/- 16.34
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.01 +/- 0.03
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-window-close
     metrics:
     - type: total_reward
+      value: 347.90 +/- 222.50
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.54 +/- 0.42
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: metaworld-window-open
     metrics:
     - type: total_reward
+      value: 574.72 +/- 75.65
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.97 +/- 0.14
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-ant
     metrics:
     - type: total_reward
+      value: 4993.13 +/- 1656.89
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.86 +/- 0.28
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-doublependulum
     metrics:
     - type: total_reward
+      value: 8744.92 +/- 1471.45
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.94 +/- 0.16
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-halfcheetah
     metrics:
     - type: total_reward
+      value: 6601.12 +/- 488.36
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.89 +/- 0.06
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-hopper
     metrics:
     - type: total_reward
+      value: 1435.45 +/- 361.77
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.77 +/- 0.20
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-humanoid
     metrics:
     - type: total_reward
+      value: 695.92 +/- 115.07
       name: Total reward
     - type: expert_normalized_total_reward
       value: 0.09 +/- 0.02
       type: mujoco-pendulum
     metrics:
     - type: total_reward
+      value: 117.64 +/- 21.73
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.24 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-pusher
     metrics:
     - type: total_reward
+      value: -24.93 +/- 6.47
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.05
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-reacher
     metrics:
     - type: total_reward
+      value: -5.77 +/- 2.27
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.00 +/- 0.06
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-standup
     metrics:
     - type: total_reward
+      value: 113587.22 +/- 21821.69
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.33 +/- 0.09
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-swimmer
     metrics:
     - type: total_reward
+      value: 94.08 +/- 3.94
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 1.02 +/- 0.04
       name: Expert normalized total reward
   - task:
       type: reinforcement-learning
       type: mujoco-walker
     metrics:
     - type: total_reward
+      value: 4381.69 +/- 848.39
       name: Total reward
     - type: expert_normalized_total_reward
+      value: 0.95 +/- 0.18
       name: Expert normalized total reward
 ---
 ## Training
 <details>
+    <summary>The model was trained on the following tasks:</summary>
 - Alien
 - Amidar
 - Assault
 model = AutoModelForCausalLM.from_pretrained("jat-project/jat")
 ```