behaviors:
      Kyle:
        trainer_type: ppo
        hyperparameters:
          batch_size: 4096
          buffer_size: 40960
          learning_rate: 0.0003
          beta: 0.005
          epsilon: 0.2
          lambd: 0.95
          num_epoch: 6
          learning_rate_schedule: linear
        network_settings:
          normalize: true
          hidden_units: 256
          num_layers: 3
          vis_encode_type: simple
          memory:
            sequence_length: 4096
            memory_size: 256
        reward_signals:
          extrinsic:
            gamma: 0.995
            strength: 1.0
          curiosity:
            strength: 0.1
            gamma: 0.995
            network_settings:
              hidden_units: 256
              learning_rate: 0.0001
        keep_checkpoints: 20
        checkpoint_interval: 1000000
        max_steps: 20000000
        time_horizon: 4096
        summary_freq: 50000