Add parsed training metrics and plots

Browse files

Files changed (11) hide show

.gitattributes +2 -0
training_logs/20260428_204143_metrics_a2_rl_stack_selfdoc_v2_387394.csv +13 -0
training_logs/20260428_204143_metrics_a2_rl_stack_selfdoc_v2_387395.csv +3 -0
training_logs/20260428_204143_metrics_report.md +265 -0
training_logs/20260428_204143_metrics_table.csv +15 -0
training_logs/20260428_204143_reward_vs_steps.png +3 -0
training_logs/20260428_204143_trial_results.csv +0 -0
training_logs/20260428_204143_turn_count_distribution.png +3 -0
training_logs/20260428_204143_vllm_metrics_a2_rl_stack_selfdoc_v2_387394.csv +0 -0
training_logs/20260428_204143_vllm_metrics_a2_rl_stack_selfdoc_v2_387395.csv +0 -0
training_logs/20260428_204143_vllm_metrics_table.csv +0 -0

.gitattributes CHANGED Viewed

@@ -34,3 +34,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+training_logs/20260428_204143_reward_vs_steps.png filter=lfs diff=lfs merge=lfs -text
+training_logs/20260428_204143_turn_count_distribution.png filter=lfs diff=lfs merge=lfs -text

training_logs/20260428_204143_metrics_a2_rl_stack_selfdoc_v2_387394.csv ADDED Viewed

	@@ -0,0 +1,13 @@

+async/discard_rate,async/discarded_count,async/effective_batch_groups,async/effective_batch_samples,async/staleness_max,async/staleness_mean,async/staleness_min,async/staleness_ratio,generate/avg_num_tokens,generate/avg_tokens_non_zero_rewards,generate/avg_tokens_zero_rewards,generate/max_num_tokens,generate/min_num_tokens,generate/std_num_tokens,loss/avg_final_rewards,loss/avg_raw_advantages,loss/avg_raw_advantages_abs,policy/final_loss,policy/policy_entropy,policy/policy_loss,policy/policy_lr,policy/policy_update_steps,policy/ppo_clip_ratio,policy/raw_grad_norm,reward/avg_pass_at_8,reward/avg_raw_reward,system/process_rss_gb,system/process_vms_gb,system/ram_available_gb,system/ram_percent,system/ram_total_gb,system/ram_used_gb,timing/cleanup_old_checkpoints,timing/compute_advantages_and_returns,timing/convert_to_training_input,timing/fwd_logprobs_values_reward,timing/policy_train,timing/run_training,timing/save_checkpoints,timing/step,timing/sync_weights,timing/train_critic_and_policy,timing/wait_for_generation_buffer,trainer/epoch,trainer/global_step,batch_errors/total_batches,batch_errors/total_instances,batch_errors/total_successful,batch_errors/total_failed,batch_errors/total_masked,batch_errors/avg_DaytonaValidationError,batch_errors/total_DaytonaValidationError,timing/save_hf_model,batch_errors/avg_DaytonaError,batch_errors/total_DaytonaError,batch_errors/avg_AgentEnvironmentTimeoutError,batch_errors/total_AgentEnvironmentTimeoutError
+0.0,0,64,512,0,0.0,0,0.0,7275.4629,6357.3333,7351.1649,21632,1649,3419.6317,0.0762,-0.0004,0.0106,-0.0,0.2188,-0.0,0.0,1.0,0.0,0.0103,0.0938,0.0762,17.0837,73.4155,363.0786,57.7,857.9687,494.8901,10.7412,0.2127,3.9195,104.1328,802.9923,907.6513,43.3412,4905.1695,53.8667,803.3054,3939.7318,0,1,128,1024,1024,0,0,,,,,,,
+0.0,0,64,512,1,1.0,1,1.0,7957.168,4530.8788,8193.2171,27882,1407,3880.4011,0.0645,0.0001,0.0054,0.0,0.2389,0.0,0.0,1.0,0.0,0.0107,0.0781,0.0645,21.7723,73.6329,360.9631,57.9,857.9687,497.0056,0.0153,0.0599,5.1948,103.7265,845.794,949.9143,43.9428,2330.4149,56.3595,846.1277,1318.9172,0,2,64,512,512,0,0,,,,,,,
+0.0,0,64,512,2,2.0,2,1.0,9141.6328,3483.3529,9335.9576,31173,1378,4855.3059,0.0332,-0.0006,0.0052,0.0,0.2475,0.0,0.0,1.0,0.0,0.002,0.0469,0.0332,23.295,73.7708,359.9666,58.0,857.9687,498.0021,0.0409,0.0704,5.5762,136.0789,929.3459,1065.8459,36.5989,2676.449,54.5569,929.6963,1550.4301,0,3,64,512,511,1,0,0.015625,1.0,,,,,
+0.0,0,64,512,3,3.0,3,1.0,8364.1445,4752.7097,8596.8981,23247,1,4259.9952,0.0605,0.0007,0.0022,-0.0,0.2539,-0.0,0.0,1.0,0.0,0.0037,0.0625,0.0605,23.2993,73.6543,356.3336,58.5,857.9687,501.6351,0.0181,0.117,4.3804,128.8873,865.2484,994.5704,33.9489,2515.8877,60.3128,865.5658,1456.5852,0,4,64,512,512,0,0,,,,,,,
+0.0,0,64,512,4,4.0,4,1.0,8814.9668,3657.25,9068.625,26822,1549,4838.5142,0.0469,0.0,0.0,0.0,0.2494,0.0,0.0,1.0,0.0,0.0,0.0469,0.0469,23.7327,73.9993,393.292,54.2,857.9687,464.6767,0.0106,0.1039,4.8987,138.3911,914.3701,1053.2169,47.7862,2550.4358,53.8457,914.7216,1438.4277,0,5,64,512,512,0,0,,,35.6986,,,,
+0.0,0,64,512,5,5.0,5,1.0,9775.6992,0.0,9775.6992,29538,1766,4947.5396,0.0,0.0,0.0,0.0,0.2604,0.0,0.0,1.0,0.0,0.0,0.0,0.0,23.9927,74.1619,387.3311,54.9,857.9687,470.6376,0.0092,0.07,5.5063,151.9273,971.4513,1123.7893,46.0193,2638.3422,54.8806,971.7915,1454.126,0,6,64,512,512,0,0,,,,,,,
+0.0,0,64,512,6,6.0,6,1.0,12587.3262,8771.6667,12655.5984,31728,1795,7162.703,0.0176,0.0002,0.0017,0.0,0.2611,0.0,0.0,1.0,0.0,0.0025,0.0312,0.0176,25.2853,74.2525,394.0407,54.1,857.9687,463.928,0.0091,0.1162,5.7226,225.2383,1227.1218,1452.8258,30.4456,6368.1796,12.6889,1227.4709,4896.8985,0,7,64,512,512,0,0,,,,,,,
+0.0,0,64,512,0,0.0,0,0.0,8240.916,5900.9189,8423.1895,28834,1883,4195.3896,0.0723,-0.0008,0.0172,-0.0,0.2536,-0.0,0.0,1.0,0.0,0.0101,0.0938,0.0723,25.3742,74.3453,391.6837,54.3,857.9687,466.285,0.008,0.0717,5.0261,118.7069,857.695,976.8176,30.3715,5271.8876,56.4666,858.0387,4233.5266,1,8,64,512,512,0,0,,,,,,,
+0.0,0,64,512,1,1.0,1,1.0,9040.8418,3583.0968,9392.5884,26852,1490,4625.472,0.0605,-0.0,0.0026,-0.0,0.2651,-0.0,0.0,1.0,0.0,0.0031,0.0625,0.0605,25.4032,74.2527,390.5529,54.5,857.9687,467.4158,0.0143,0.0648,5.5196,117.0133,875.2519,992.6904,30.9643,3170.1598,55.3772,875.612,2116.5253,1,9,64,512,512,0,0,,,,,,,
+0.0,0,64,512,2,2.0,2,1.0,10337.2324,4228.0,10547.0444,30710,2240,5203.9956,0.0332,0.0002,0.0055,-0.0,0.2663,-0.0,0.0,1.0,0.0,0.0015,0.0469,0.0332,25.5461,74.2853,382.0897,55.5,857.9687,475.879,0.0093,0.0713,5.7217,144.2946,997.5803,1142.3512,51.3102,2492.1314,54.8136,997.985,1289.203,1,10,64,512,512,0,0,,,33.3725,,,,
+0.0,0,64,512,3,3.0,3,1.0,9823.8594,5472.55,10192.6144,31032,1842,4939.9625,0.0781,0.0,0.0,0.0,0.2664,0.0,0.0,1.0,0.0,0.0,0.0781,0.0781,26.0123,74.701,377.9515,55.9,857.9687,480.0172,0.013,0.0713,5.5893,124.439,955.5093,1080.4547,51.6951,2944.7977,57.2244,955.9438,1801.4832,1,11,64,512,511,1,1,,,,0.015625,1.0,,
+0.0,0,64,512,4,4.0,4,1.0,9383.625,4145.0833,9641.2582,25296,1,5089.0981,0.0469,0.0,0.0,0.0,0.2653,0.0,0.0,1.0,0.0,0.0,0.0469,0.0469,25.8842,74.5652,400.3334,53.3,857.9687,457.6353,0.0091,0.0605,4.7815,144.4199,946.7012,1091.543,51.978,2861.4366,53.809,947.0622,1711.2585,1,12,55,440,439,1,1,,,,,,0.01818181818181818,1.0

training_logs/20260428_204143_metrics_a2_rl_stack_selfdoc_v2_387395.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+async/discard_rate,async/discarded_count,async/effective_batch_groups,async/effective_batch_samples,async/staleness_max,async/staleness_mean,async/staleness_min,async/staleness_ratio,generate/avg_num_tokens,generate/avg_tokens_non_zero_rewards,generate/avg_tokens_zero_rewards,generate/max_num_tokens,generate/min_num_tokens,generate/std_num_tokens,loss/avg_final_rewards,loss/avg_raw_advantages,loss/avg_raw_advantages_abs,policy/final_loss,policy/policy_entropy,policy/policy_loss,policy/policy_lr,policy/policy_update_steps,policy/ppo_clip_ratio,policy/raw_grad_norm,reward/avg_pass_at_8,reward/avg_raw_reward,system/process_rss_gb,system/process_vms_gb,system/ram_available_gb,system/ram_percent,system/ram_total_gb,system/ram_used_gb,timing/cleanup_old_checkpoints,timing/compute_advantages_and_returns,timing/convert_to_training_input,timing/fwd_logprobs_values_reward,timing/policy_train,timing/run_training,timing/save_checkpoints,timing/step,timing/sync_weights,timing/train_critic_and_policy,timing/wait_for_generation_buffer,trainer/epoch,trainer/global_step,batch_errors/total_batches,batch_errors/total_instances,batch_errors/total_successful,batch_errors/total_failed,batch_errors/total_masked
+0.0,0,64,512,5,2.1875,0,0.4375,10429.4316,0.0,10429.4316,30063,1664,5216.7129,0.0,0.0,0.0,0.0,0.2684,0.0,0.0,1.0,0.0,0.0,0.0,0.0,23.0165,73.8899,371.7734,56.7,857.9687,486.1953,11.322,0.0818,5.7184,157.0005,1013.8685,1171.3008,45.1988,5267.0618,53.0551,1014.2173,4036.9872,1,13,64,512,512,0,0
+0.0,0,64,512,1,1.0,1,1.0,11246.5156,6659.4545,11347.2295,30998,907,6076.7695,0.0215,0.0004,0.0034,0.0,0.2719,0.0,0.0,1.0,0.0,0.0047,0.0312,0.0215,24.594,74.0568,357.858,58.3,857.9687,500.1107,0.0102,0.0736,5.798,187.2758,1083.085,1270.7739,33.2045,2948.7362,59.3865,1083.4237,1612.7324,1,14,17,136,136,0,0

training_logs/20260428_204143_metrics_report.md ADDED Viewed

	@@ -0,0 +1,265 @@

+# SkyRL Training Metrics Analysis
+Generated from 2 log files
+## Overview
+| Log File | Total Steps | Metric Blocks | Final Reward (mean) | Final Reward (max) | Total Time (s) |
+|----------|-------------|---------------|---------------------|-------------------|----------------|
+| a2_rl_stack_selfdoc_v2_387394 | 12 | 12 | 0.0492 | 0.0781 | 40725.3 |
+| a2_rl_stack_selfdoc_v2_387395 | 14 | 2 | 0.0107 | 0.0215 | 8215.8 |
+## Async Metrics
+|                               |       Mean |      Std |   Min |   Max |   Count |
+|:------------------------------|-----------:|---------:|------:|------:|--------:|
+| async/discard_rate            |   0        | 0        |     0 |     0 |      14 |
+| async/discarded_count         |   0        | 0        |     0 |     0 |      14 |
+| async/effective_batch_groups  |  64        | 0        |    64 |    64 |      14 |
+| async/effective_batch_samples | 512        | 0        |   512 |   512 |      14 |
+| async/staleness_max           |   2.64286  | 1.94569  |     0 |     6 |      14 |
+| async/staleness_mean          |   2.44196  | 1.82505  |     0 |     6 |      14 |
+| async/staleness_min           |   2.28571  | 1.93862  |     0 |     6 |      14 |
+| async/staleness_ratio         |   0.816964 | 0.376969 |     0 |     1 |      14 |
+## Generate Metrics
+|                                      |     Mean |      Std |      Min |      Max |   Count |
+|:-------------------------------------|---------:|---------:|---------:|---------:|--------:|
+| generate/avg_num_tokens              |  9458.49 | 1395.87  |  7275.46 | 12587.3  |      14 |
+| generate/avg_tokens_non_zero_rewards |  4395.88 | 2361     |     0    |  8771.67 |      14 |
+| generate/avg_tokens_zero_rewards     |  9639.32 | 1363.22  |  7351.16 | 12655.6  |      14 |
+| generate/max_num_tokens              | 28271.9  | 3149.44  | 21632    | 31728    |      14 |
+| generate/min_num_tokens              |  1398    |  664.724 |     1    |  2240    |      14 |
+| generate/std_num_tokens              |  4907.96 |  917.956 |  3419.63 |  7162.7  |      14 |
+## Loss Metrics
+|                             |         Mean |         Std |     Min |    Max |   Count |
+|:----------------------------|-------------:|------------:|--------:|-------:|--------:|
+| loss/avg_final_rewards      |  0.0436714   | 0.026731    |  0      | 0.0781 |      14 |
+| loss/avg_raw_advantages     | -1.42857e-05 | 0.000382013 | -0.0008 | 0.0007 |      14 |
+| loss/avg_raw_advantages_abs |  0.00384286  | 0.0049143   |  0      | 0.0172 |      14 |
+## Policy Metrics
+|                            |       Mean |        Std |     Min |    Max |   Count |
+|:---------------------------|-----------:|-----------:|--------:|-------:|--------:|
+| policy/final_loss          | 0          | 0          | -0      | 0      |      14 |
+| policy/policy_entropy      | 0.256214   | 0.0142426  |  0.2188 | 0.2719 |      14 |
+| policy/policy_loss         | 0          | 0          | -0      | 0      |      14 |
+| policy/policy_lr           | 0          | 0          |  0      | 0      |      14 |
+| policy/policy_update_steps | 1          | 0          |  1      | 1      |      14 |
+| policy/ppo_clip_ratio      | 0          | 0          |  0      | 0      |      14 |
+| policy/raw_grad_norm       | 0.00347143 | 0.00403607 |  0      | 0.0107 |      14 |
+## Reward Metrics
+|                       |      Mean |      Std |   Min |    Max |   Count |
+|:----------------------|----------:|---------:|------:|-------:|--------:|
+| reward/avg_pass_at_8  | 0.0513429 | 0.029676 |     0 | 0.0938 |      14 |
+| reward/avg_raw_reward | 0.0436714 | 0.026731 |     0 | 0.0781 |      14 |
+## System Metrics
+|                         |     Mean |          Std |      Min |      Max |   Count |
+|:------------------------|---------:|-------------:|---------:|---------:|--------:|
+| system/process_rss_gb   |  23.878  |  2.32823     |  17.0837 |  26.0123 |      14 |
+| system/process_vms_gb   |  74.0702 |  0.367949    |  73.4155 |  74.701  |      14 |
+| system/ram_available_gb | 377.661  | 15.6622      | 356.334  | 400.333  |      14 |
+| system/ram_percent      |  55.9857 |  1.82456     |  53.3    |  58.5    |      14 |
+| system/ram_total_gb     | 857.969  |  2.35957e-13 | 857.969  | 857.969  |      14 |
+| system/ram_used_gb      | 480.308  | 15.6622      | 457.635  | 501.635  |      14 |
+## Timing Metrics
+|                                       |         Mean |          Std |       Min |       Max |   Count |
+|:--------------------------------------|-------------:|-------------:|----------:|----------:|--------:|
+| timing/cleanup_old_checkpoints        |    1.58788   |    4.00255   |    0.008  |   11.322  |      14 |
+| timing/compute_advantages_and_returns |    0.0889357 |    0.0403961 |    0.0599 |    0.2127 |      14 |
+| timing/convert_to_training_input      |    5.23951   |    0.571532  |    3.9195 |    5.798  |      14 |
+| timing/fwd_logprobs_values_reward     |  141.538     |   32.7042    |  103.727  |  225.238  |      14 |
+| timing/policy_train                   |  949.001     |  109.823     |  802.992  | 1227.12   |      14 |
+| timing/run_training                   | 1090.98      |  141.718     |  907.651  | 1452.83   |      14 |
+| timing/save_checkpoints               |   41.2004    |    8.31398   |   30.3715 |   51.978  |      14 |
+| timing/step                           | 3495.79      | 1337.8       | 2330.41   | 6368.18   |      14 |
+| timing/sync_weights                   |   52.6174    |   11.6862    |   12.6889 |   60.3128 |      14 |
+| timing/train_critic_and_policy        |  949.354     |  109.831     |  803.305  | 1227.47   |      14 |
+| timing/wait_for_generation_buffer     | 2346.92      | 1300.11      | 1289.2    | 4896.9    |      14 |
+| timing/save_hf_model                  |   34.5356    |    1.6448    |   33.3725 |   35.6986 |       2 |
+## Trainer Metrics
+|                     |   Mean |      Std |   Min |   Max |   Count |
+|:--------------------|-------:|---------:|------:|------:|--------:|
+| trainer/epoch       |    0.5 | 0.518875 |     0 |     1 |      14 |
+| trainer/global_step |    7.5 | 4.1833   |     1 |    14 |      14 |
+## Batch_Errors Metrics
+|                                                 |        Mean |        Std |         Min |          Max |   Count |
+|:------------------------------------------------|------------:|-----------:|------------:|-------------:|--------:|
+| batch_errors/total_batches                      |  64.5714    |  22.1558   |  17         |  128         |      14 |
+| batch_errors/total_instances                    | 516.571     | 177.246    | 136         | 1024         |      14 |
+| batch_errors/total_successful                   | 516.357     | 177.284    | 136         | 1024         |      14 |
+| batch_errors/total_failed                       |   0.214286  |   0.425815 |   0         |    1         |      14 |
+| batch_errors/total_masked                       |   0.142857  |   0.363137 |   0         |    1         |      14 |
+| batch_errors/avg_DaytonaValidationError         |   0.015625  | nan        |   0.015625  |    0.015625  |       1 |
+| batch_errors/total_DaytonaValidationError       |   1         | nan        |   1         |    1         |       1 |
+| batch_errors/avg_DaytonaError                   |   0.015625  | nan        |   0.015625  |    0.015625  |       1 |
+| batch_errors/total_DaytonaError                 |   1         | nan        |   1         |    1         |       1 |
+| batch_errors/avg_AgentEnvironmentTimeoutError   |   0.0181818 | nan        |   0.0181818 |    0.0181818 |       1 |
+| batch_errors/total_AgentEnvironmentTimeoutError |   1         | nan        |   1         |    1         |       1 |
+## Training Progression by Log
+### a2_rl_stack_selfdoc_v2_387394
+| Step | Reward | Pass@8 | KL | Loss | Step Time (s) | Gen Wait (s) |
+|------|--------|--------|-----|------|---------------|-------------|
+| 1 | 0.0762 | 0.0938 | 0.000000 | -0.0000 | 4905.2 | 3939.7 |
+| 2 | 0.0645 | 0.0781 | 0.000000 | 0.0000 | 2330.4 | 1318.9 |
+| 3 | 0.0332 | 0.0469 | 0.000000 | 0.0000 | 2676.4 | 1550.4 |
+| 4 | 0.0605 | 0.0625 | 0.000000 | -0.0000 | 2515.9 | 1456.6 |
+| 5 | 0.0469 | 0.0469 | 0.000000 | 0.0000 | 2550.4 | 1438.4 |
+| 6 | 0.0000 | 0.0000 | 0.000000 | 0.0000 | 2638.3 | 1454.1 |
+| 7 | 0.0176 | 0.0312 | 0.000000 | 0.0000 | 6368.2 | 4896.9 |
+| 8 | 0.0723 | 0.0938 | 0.000000 | -0.0000 | 5271.9 | 4233.5 |
+| 9 | 0.0605 | 0.0625 | 0.000000 | -0.0000 | 3170.2 | 2116.5 |
+| 10 | 0.0332 | 0.0469 | 0.000000 | -0.0000 | 2492.1 | 1289.2 |
+| 11 | 0.0781 | 0.0781 | 0.000000 | 0.0000 | 2944.8 | 1801.5 |
+| 12 | 0.0469 | 0.0469 | 0.000000 | 0.0000 | 2861.4 | 1711.3 |
+### a2_rl_stack_selfdoc_v2_387395
+| Step | Reward | Pass@8 | KL | Loss | Step Time (s) | Gen Wait (s) |
+|------|--------|--------|-----|------|---------------|-------------|
+| 13 | 0.0000 | 0.0000 | 0.000000 | 0.0000 | 5267.1 | 4037.0 |
+| 14 | 0.0215 | 0.0312 | 0.000000 | 0.0000 | 2948.7 | 1612.7 |
+## Timing Analysis
+### Average Time Breakdown (% of step time)
+| Component | Avg % of Step Time |
+|-----------|-------------------|
+| wait_for_generation_buffer | 63.7% |
+| run_training | 34.4% |
+| train_critic_and_policy | 29.9% |
+| policy_train | 29.9% |
+| fwd_logprobs_values_reward | 4.4% |
+| sync_weights | 1.7% |
+| save_hf_model | 1.4% |
+| save_checkpoints | 1.3% |
+| convert_to_training_input | 0.2% |
+| cleanup_old_checkpoints | 0.0% |
+| compute_advantages_and_returns | 0.0% |
+## Cross-Log Comparison
+| Log | Avg Reward | Pass@8 | Step Time (s) | Gen Wait Time (s) | Avg Tokens | Staleness |
+|-----|------|------|------|------|------|------|
+| a2_rl_stack_selfdoc_v2_387394 | 0.0492 | 0.0573 | 3393.7743 | 2267.2594 | 9228.5729 | 2.5833 |
+| a2_rl_stack_selfdoc_v2_387395 | 0.0107 | 0.0156 | 4107.8990 | 2824.8598 | 10837.9736 | 1.5938 |
+## vLLM Inference Engine Analysis
+Metrics from vLLM stat loggers (V1LoggingStatLoggerFixed).
+> **Note**: Ray deduplicates similar log messages with `[repeated Nx across cluster]`,
+> so we typically capture stats from one engine per timestamp. The stats shown are
+> **per-engine** values. Multiply by num_inference_engines for cluster-wide estimates.
+### Summary by Log (Per-Engine Stats)
+| Log | Avg Running/Engine | Avg Waiting/Engine | Avg Gen Throughput/Engine | Avg KV Cache % | Avg Prefix Hit % |
+|-----|-------------------|-------------------|--------------------------|----------------|------------------|
+| a2_rl_stack_selfdoc_v2_387394 | 4.2 | 0.0 | 81.5 tok/s | 9.1% | 88.9% |
+| a2_rl_stack_selfdoc_v2_387395 | 3.9 | 0.0 | 79.9 tok/s | 10.3% | 90.8% |
+### Utilization Analysis (Per-Engine)
+Key indicators of inference engine utilization:
+- **Running requests/engine**: Concurrent requests being processed by each engine
+- **Waiting requests**: Requests queued (0 = engine not saturated, has spare capacity)
+- **Generation throughput**: Decode tokens/sec per engine
+  - 8B model on H100 can do **1000+ tok/s** when saturated
+  - If seeing <300 tok/s with 0 waiting, engine is **starved for requests**
+#### a2_rl_stack_selfdoc_v2_387394
+- **Running requests/engine**: avg=4.2, max=16
+- **Waiting requests**: avg=0.0, max=0
+- **Generation throughput/engine**: avg=81.5 tok/s, max=297.7 tok/s
+- **KV cache usage**: avg=9.1%
+- **Prefix cache hit rate**: avg=88.9%
+- ⚠️ **Underutilized**: Engines starved for requests (0 waiting, avg 4.2 running)
+  - Bottleneck is likely upstream (environment execution, not inference)
+#### a2_rl_stack_selfdoc_v2_387395
+- **Running requests/engine**: avg=3.9, max=13
+- **Waiting requests**: avg=0.0, max=0
+- **Generation throughput/engine**: avg=79.9 tok/s, max=283.3 tok/s
+- **KV cache usage**: avg=10.3%
+- **Prefix cache hit rate**: avg=90.8%
+- ⚠️ **Underutilized**: Engines starved for requests (0 waiting, avg 3.9 running)
+  - Bottleneck is likely upstream (environment execution, not inference)
+## Trial-Level Analysis (from result.json)
+Total trials parsed: 7891
+### Turn Count Statistics
+| Metric | Value |
+|--------|-------|
+| Mean | 6.2 |
+| Median | 5.0 |
+| Std | 3.9 |
+| Min | 1 |
+| Max | 36 |
+| Count | 7891 |
+### Exception Distribution
+| Exception Type | Count | % |
+|---------------|-------|---|
+| No exception | 7768 | 98.4% |
+| AgentTimeoutError | 81 | 1.0% |
+| ContextLengthExceededError | 28 | 0.4% |
+| InternalServerError | 7 | 0.1% |
+| CancelledError | 3 | 0.0% |
+| RuntimeError | 1 | 0.0% |
+| DaytonaValidationError | 1 | 0.0% |
+| AgentEnvironmentTimeoutError | 1 | 0.0% |
+| DaytonaError | 1 | 0.0% |
+### Turn Count by Exception Type
+| Exception Type | Mean Turns | Median Turns | Count |
+|---------------|-----------|-------------|-------|
+| ContextLengthExceededError | 19.8 | 19.5 | 28 |
+| DaytonaError | 14.0 | 14.0 | 1 |
+| AgentTimeoutError | 13.3 | 14.0 | 81 |
+| DaytonaValidationError | 10.0 | 10.0 | 1 |
+| InternalServerError | 7.4 | 7.0 | 7 |
+| CancelledError | 7.0 | 1.0 | 3 |
+| No exception | 6.0 | 5.0 | 7768 |
+| RuntimeError | 6.0 | 6.0 | 1 |
+| AgentEnvironmentTimeoutError | 3.0 | 3.0 | 1 |
+### Turn Count by Outcome
+| Outcome | Mean Turns | Median Turns | Count |
+|---------|-----------|-------------|-------|
+| Success | 2.8 | 2.0 | 313 |
+| Failure | 6.3 | 6.0 | 7564 |
+### Reward Summary
+- Mean reward: 0.0397
+- Success rate: 4.0%
+- Trials with reward data: 7877

training_logs/20260428_204143_metrics_table.csv ADDED Viewed

	@@ -0,0 +1,15 @@

+log_file,async/discard_rate,async/discarded_count,async/effective_batch_groups,async/effective_batch_samples,async/staleness_max,async/staleness_mean,async/staleness_min,async/staleness_ratio,generate/avg_num_tokens,generate/avg_tokens_non_zero_rewards,generate/avg_tokens_zero_rewards,generate/max_num_tokens,generate/min_num_tokens,generate/std_num_tokens,loss/avg_final_rewards,loss/avg_raw_advantages,loss/avg_raw_advantages_abs,policy/final_loss,policy/policy_entropy,policy/policy_loss,policy/policy_lr,policy/policy_update_steps,policy/ppo_clip_ratio,policy/raw_grad_norm,reward/avg_pass_at_8,reward/avg_raw_reward,system/process_rss_gb,system/process_vms_gb,system/ram_available_gb,system/ram_percent,system/ram_total_gb,system/ram_used_gb,timing/cleanup_old_checkpoints,timing/compute_advantages_and_returns,timing/convert_to_training_input,timing/fwd_logprobs_values_reward,timing/policy_train,timing/run_training,timing/save_checkpoints,timing/step,timing/sync_weights,timing/train_critic_and_policy,timing/wait_for_generation_buffer,trainer/epoch,trainer/global_step,batch_errors/total_batches,batch_errors/total_instances,batch_errors/total_successful,batch_errors/total_failed,batch_errors/total_masked,batch_errors/avg_DaytonaValidationError,batch_errors/total_DaytonaValidationError,timing/save_hf_model,batch_errors/avg_DaytonaError,batch_errors/total_DaytonaError,batch_errors/avg_AgentEnvironmentTimeoutError,batch_errors/total_AgentEnvironmentTimeoutError,global_step
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,0,0.0,0,0.0,7275.4629,6357.3333,7351.1649,21632,1649,3419.6317,0.0762,-0.0004,0.0106,-0.0,0.2188,-0.0,0.0,1.0,0.0,0.0103,0.0938,0.0762,17.0837,73.4155,363.0786,57.7,857.9687,494.8901,10.7412,0.2127,3.9195,104.1328,802.9923,907.6513,43.3412,4905.1695,53.8667,803.3054,3939.7318,0,1,128,1024,1024,0,0,,,,,,,,1
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,1,1.0,1,1.0,7957.168,4530.8788,8193.2171,27882,1407,3880.4011,0.0645,0.0001,0.0054,0.0,0.2389,0.0,0.0,1.0,0.0,0.0107,0.0781,0.0645,21.7723,73.6329,360.9631,57.9,857.9687,497.0056,0.0153,0.0599,5.1948,103.7265,845.794,949.9143,43.9428,2330.4149,56.3595,846.1277,1318.9172,0,2,64,512,512,0,0,,,,,,,,2
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,2,2.0,2,1.0,9141.6328,3483.3529,9335.9576,31173,1378,4855.3059,0.0332,-0.0006,0.0052,0.0,0.2475,0.0,0.0,1.0,0.0,0.002,0.0469,0.0332,23.295,73.7708,359.9666,58.0,857.9687,498.0021,0.0409,0.0704,5.5762,136.0789,929.3459,1065.8459,36.5989,2676.449,54.5569,929.6963,1550.4301,0,3,64,512,511,1,0,0.015625,1.0,,,,,,3
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,3,3.0,3,1.0,8364.1445,4752.7097,8596.8981,23247,1,4259.9952,0.0605,0.0007,0.0022,-0.0,0.2539,-0.0,0.0,1.0,0.0,0.0037,0.0625,0.0605,23.2993,73.6543,356.3336,58.5,857.9687,501.6351,0.0181,0.117,4.3804,128.8873,865.2484,994.5704,33.9489,2515.8877,60.3128,865.5658,1456.5852,0,4,64,512,512,0,0,,,,,,,,4
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,4,4.0,4,1.0,8814.9668,3657.25,9068.625,26822,1549,4838.5142,0.0469,0.0,0.0,0.0,0.2494,0.0,0.0,1.0,0.0,0.0,0.0469,0.0469,23.7327,73.9993,393.292,54.2,857.9687,464.6767,0.0106,0.1039,4.8987,138.3911,914.3701,1053.2169,47.7862,2550.4358,53.8457,914.7216,1438.4277,0,5,64,512,512,0,0,,,35.6986,,,,,5
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,5,5.0,5,1.0,9775.6992,0.0,9775.6992,29538,1766,4947.5396,0.0,0.0,0.0,0.0,0.2604,0.0,0.0,1.0,0.0,0.0,0.0,0.0,23.9927,74.1619,387.3311,54.9,857.9687,470.6376,0.0092,0.07,5.5063,151.9273,971.4513,1123.7893,46.0193,2638.3422,54.8806,971.7915,1454.126,0,6,64,512,512,0,0,,,,,,,,6
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,6,6.0,6,1.0,12587.3262,8771.6667,12655.5984,31728,1795,7162.703,0.0176,0.0002,0.0017,0.0,0.2611,0.0,0.0,1.0,0.0,0.0025,0.0312,0.0176,25.2853,74.2525,394.0407,54.1,857.9687,463.928,0.0091,0.1162,5.7226,225.2383,1227.1218,1452.8258,30.4456,6368.1796,12.6889,1227.4709,4896.8985,0,7,64,512,512,0,0,,,,,,,,7
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,0,0.0,0,0.0,8240.916,5900.9189,8423.1895,28834,1883,4195.3896,0.0723,-0.0008,0.0172,-0.0,0.2536,-0.0,0.0,1.0,0.0,0.0101,0.0938,0.0723,25.3742,74.3453,391.6837,54.3,857.9687,466.285,0.008,0.0717,5.0261,118.7069,857.695,976.8176,30.3715,5271.8876,56.4666,858.0387,4233.5266,1,8,64,512,512,0,0,,,,,,,,8
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,1,1.0,1,1.0,9040.8418,3583.0968,9392.5884,26852,1490,4625.472,0.0605,-0.0,0.0026,-0.0,0.2651,-0.0,0.0,1.0,0.0,0.0031,0.0625,0.0605,25.4032,74.2527,390.5529,54.5,857.9687,467.4158,0.0143,0.0648,5.5196,117.0133,875.2519,992.6904,30.9643,3170.1598,55.3772,875.612,2116.5253,1,9,64,512,512,0,0,,,,,,,,9
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,2,2.0,2,1.0,10337.2324,4228.0,10547.0444,30710,2240,5203.9956,0.0332,0.0002,0.0055,-0.0,0.2663,-0.0,0.0,1.0,0.0,0.0015,0.0469,0.0332,25.5461,74.2853,382.0897,55.5,857.9687,475.879,0.0093,0.0713,5.7217,144.2946,997.5803,1142.3512,51.3102,2492.1314,54.8136,997.985,1289.203,1,10,64,512,512,0,0,,,33.3725,,,,,10
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,3,3.0,3,1.0,9823.8594,5472.55,10192.6144,31032,1842,4939.9625,0.0781,0.0,0.0,0.0,0.2664,0.0,0.0,1.0,0.0,0.0,0.0781,0.0781,26.0123,74.701,377.9515,55.9,857.9687,480.0172,0.013,0.0713,5.5893,124.439,955.5093,1080.4547,51.6951,2944.7977,57.2244,955.9438,1801.4832,1,11,64,512,511,1,1,,,,0.015625,1.0,,,11
+a2_rl_stack_selfdoc_v2_387394,0.0,0,64,512,4,4.0,4,1.0,9383.625,4145.0833,9641.2582,25296,1,5089.0981,0.0469,0.0,0.0,0.0,0.2653,0.0,0.0,1.0,0.0,0.0,0.0469,0.0469,25.8842,74.5652,400.3334,53.3,857.9687,457.6353,0.0091,0.0605,4.7815,144.4199,946.7012,1091.543,51.978,2861.4366,53.809,947.0622,1711.2585,1,12,55,440,439,1,1,,,,,,0.01818181818181818,1.0,12
+a2_rl_stack_selfdoc_v2_387395,0.0,0,64,512,5,2.1875,0,0.4375,10429.4316,0.0,10429.4316,30063,1664,5216.7129,0.0,0.0,0.0,0.0,0.2684,0.0,0.0,1.0,0.0,0.0,0.0,0.0,23.0165,73.8899,371.7734,56.7,857.9687,486.1953,11.322,0.0818,5.7184,157.0005,1013.8685,1171.3008,45.1988,5267.0618,53.0551,1014.2173,4036.9872,1,13,64,512,512,0,0,,,,,,,,13
+a2_rl_stack_selfdoc_v2_387395,0.0,0,64,512,1,1.0,1,1.0,11246.5156,6659.4545,11347.2295,30998,907,6076.7695,0.0215,0.0004,0.0034,0.0,0.2719,0.0,0.0,1.0,0.0,0.0047,0.0312,0.0215,24.594,74.0568,357.858,58.3,857.9687,500.1107,0.0102,0.0736,5.798,187.2758,1083.085,1270.7739,33.2045,2948.7362,59.3865,1083.4237,1612.7324,1,14,17,136,136,0,0,,,,,,,,14

training_logs/20260428_204143_reward_vs_steps.png ADDED Viewed

Git LFS Details

SHA256: 441690153c58c231c0de8de8262b2dd34fdb6c488a75dc2405b4a7153fd762a4
Pointer size: 131 Bytes
Size of remote file: 159 kB

training_logs/20260428_204143_trial_results.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

training_logs/20260428_204143_turn_count_distribution.png ADDED Viewed

Git LFS Details

SHA256: f8caca01e5cf0babffb4b4acb54b05bd7b3341b84b2e760d019e516b21587cea
Pointer size: 131 Bytes
Size of remote file: 108 kB

training_logs/20260428_204143_vllm_metrics_a2_rl_stack_selfdoc_v2_387394.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

training_logs/20260428_204143_vllm_metrics_a2_rl_stack_selfdoc_v2_387395.csv ADDED Viewed

The diff for this file is too large to render. See raw diff

training_logs/20260428_204143_vllm_metrics_table.csv ADDED Viewed

The diff for this file is too large to render. See raw diff