RLHFlow
/

ArmoRM-Llama3-8B-v0.1

Text Classification

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Update modeling_custom.py

#14

by gabrielmbmb HF staff - opened Aug 1

base: refs/heads/main

←

from: refs/pr/14

Discussion Files changed

Files changed (1) hide show

modeling_custom.py +6 -1

modeling_custom.py CHANGED Viewed

@@ -96,6 +96,9 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
                                     temperature=config_dict.get("gating_temperature", 10),
                                     hidden_dim=config_dict.get("gating_hidden_dim", 1024),
                                     n_hidden=config_dict.get("gating_n_hidden", 3))
     @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
     def forward(
@@ -153,6 +156,8 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
         gating_output = self.gating(prompt_embedding)
         rewards_adjusted = rewards @ self.reward_transform_matrix
         score = torch.sum(gating_output * rewards_adjusted, dim=1)
@@ -163,4 +168,4 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
             gating_output=gating_output,
             score=score,
             logits=score,
-        )

                                     temperature=config_dict.get("gating_temperature", 10),
                                     hidden_dim=config_dict.get("gating_hidden_dim", 1024),
                                     n_hidden=config_dict.get("gating_n_hidden", 3))
+    def align_tensor_devices(self, *tensors):
+        target_device = tensors[0].device
+        return [tensor.to(target_device) if tensor.device != target_device else tensor for tensor in tensors]
     @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
     def forward(
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
         gating_output = self.gating(prompt_embedding)
+        rewards, self.reward_transform_matrix = self.align_tensor_devices(rewards, self.reward_transform_matrix)
         rewards_adjusted = rewards @ self.reward_transform_matrix
         score = torch.sum(gating_output * rewards_adjusted, dim=1)
             gating_output=gating_output,
             score=score,
             logits=score,
+        )