WillHeld
/

DiVA-llama-3-v0-8b

Feature Extraction

Model card Files Files and versions Community

WillHeld commited on Oct 11, 2024

Commit

f7f3973

·

verified ·

1 Parent(s): 48b107a

Update modeling_diva.py

Files changed (1) hide show

modeling_diva.py +17 -5

modeling_diva.py CHANGED Viewed

@@ -277,6 +277,8 @@ class DiVAModel(PreTrainedModel):
         do_sample=False,
         logits_processor=None,
         max_new_tokens=128,
     ):
         inputs = self.processor(audio, return_tensors="pt", sampling_rate=16_000)
         input_features = inputs.input_features.to(self.whisper_encoder.device)
@@ -305,7 +307,7 @@ class DiVAModel(PreTrainedModel):
             [prefix_embed, virt_tokens, suffix_embed], axis=0
         ).unsqueeze(0)
         outs = []
-        outputs = None
         greedy = 1
         i = 0
         while greedy != 128009 and len(outs) < max_new_tokens:
@@ -337,9 +339,19 @@ class DiVAModel(PreTrainedModel):
             outs.append(greedy)
             next_embed = self.llm_decoder.model.embed_tokens(greedy.reshape(1, 1))
             inputs_embeds = next_embed
-            yield self.tokenizer.decode(outs, skip_special_tokens=True).replace(
                 "<|eot_id|>", ""
             )
-        return self.tokenizer.decode(outs, skip_special_tokens=True).replace(
-            "<|eot_id|>", ""
-        )

         do_sample=False,
         logits_processor=None,
         max_new_tokens=128,
+        return_outputs=False,
+        init_outputs=None,
     ):
         inputs = self.processor(audio, return_tensors="pt", sampling_rate=16_000)
         input_features = inputs.input_features.to(self.whisper_encoder.device)
             [prefix_embed, virt_tokens, suffix_embed], axis=0
         ).unsqueeze(0)
         outs = []
+        outputs = init_outputs
         greedy = 1
         i = 0
         while greedy != 128009 and len(outs) < max_new_tokens:
             outs.append(greedy)
             next_embed = self.llm_decoder.model.embed_tokens(greedy.reshape(1, 1))
             inputs_embeds = next_embed
+            if not return_outputs:
+                yield self.tokenizer.decode(outs, skip_special_tokens=True).replace(
+                    "<|eot_id|>", ""
+                )
+            else:
+                yield (self.tokenizer.decode(outs, skip_special_tokens=True).replace(
+                    "<|eot_id|>", ""
+                ), outputs)
+        if not return_outputs:
+            return self.tokenizer.decode(outs, skip_special_tokens=True).replace(
                 "<|eot_id|>", ""
             )
+        else:
+            return (self.tokenizer.decode(outs, skip_special_tokens=True).replace(
+                "<|eot_id|>", ""
+            ), outputs)