learning rate: 2e-5  
training epochs: 3  
batch size: 64  
seed: 13    
model: bert-base-uncased  
trained on MNLI which is converted into two-way nli classification (predict entailment or not-entailment class)