vincentmireau
/

summary-llama3-8b-f16-full

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

rerere hotfix

#5

by clemparpa - opened Jun 17, 2024

base: refs/heads/main

←

from: refs/pr/5

Discussion Files changed

Files changed (1) hide show

handler.py +4 -4

handler.py CHANGED Viewed

@@ -47,14 +47,14 @@ class EndpointHandler():
         return inputs, True
     def _format_inputs(self, inputs: list[str]):
-        prompts = [summary_prompt.format(abstract, "") for abstract in inputs]
         prompts_lengths = [len(prompt) for prompt in prompts]
         return prompts, prompts_lengths
     def _generate_outputs(self, inputs):
-        tokenized = tokenizer(inputs, return_tensors="pt", padding=True).to("cuda")
-        outputs = model.generate(**tokenized, max_new_tokens=500, use_cache=True)
-        decoded = tokenizer.batch_decode(outputs, skip_special_tokens=True)
         return decoded
     def _format_outputs(self, outputs: list[str], inputs_lengths: list[int]):

         return inputs, True
     def _format_inputs(self, inputs: list[str]):
+        prompts = [self.summary_prompt.format(abstract, "") for abstract in inputs]
         prompts_lengths = [len(prompt) for prompt in prompts]
         return prompts, prompts_lengths
     def _generate_outputs(self, inputs):
+        tokenized = self.tokenizer(inputs, return_tensors="pt", padding=True).to("cuda")
+        outputs = self.model.generate(**tokenized, max_new_tokens=500, use_cache=True)
+        decoded = self.tokenizer.batch_decode(outputs, skip_special_tokens=True)
         return decoded
     def _format_outputs(self, outputs: list[str], inputs_lengths: list[int]):