berkeley-nest
/

Starling-RM-7B-alpha

@@ -92,11 +92,10 @@ class GPTRewardModel(nn.Module):
             c_ind = c_inds[0].item() if len(c_inds) > 0 else input_ids.shape[1]
             scores.append(rewards[i, c_ind - 1])
         return scores
-            return scores
 ## Load the model and tokenizer
-reward_model = GPTRewardModel("meta-llama/Llama-2-7b-chat-hf", reward_tokenizer.eos_token_id)
 reward_tokenizer = reward_model.tokenizer
 reward_tokenizer.truncation_side = "left"

             c_ind = c_inds[0].item() if len(c_inds) > 0 else input_ids.shape[1]
             scores.append(rewards[i, c_ind - 1])
         return scores
 ## Load the model and tokenizer
+reward_model = GPTRewardModel("meta-llama/Llama-2-7b-chat-hf")
 reward_tokenizer = reward_model.tokenizer
 reward_tokenizer.truncation_side = "left"