mazesmazes
/

tiny-audio

@@ -858,6 +858,8 @@ class ASRModel(PreTrainedModel):
         # Test: Try without threading first to see if that's the issue
         print(f"DEBUG: Testing non-threaded generation first", file=sys.stderr)
         test_output = self.decoder.generate(
             input_ids=expanded_prompt_ids,
             inputs_embeds=inputs_embeds,
@@ -865,8 +867,13 @@ class ASRModel(PreTrainedModel):
             max_new_tokens=10,  # Just generate a few tokens to test
             **{k: v for k, v in generate_kwargs.items() if k != 'max_new_tokens'}
         )
         test_text = self.tokenizer.decode(test_output[0, input_token_count:], skip_special_tokens=True)
-        print(f"DEBUG: Non-threaded test output: {test_text}", file=sys.stderr)
         # Set up the streamer
         streamer = TextIteratorStreamer(

         # Test: Try without threading first to see if that's the issue
         print(f"DEBUG: Testing non-threaded generation first", file=sys.stderr)
+        print(f"DEBUG: input_token_count (prompt length) = {input_token_count}", file=sys.stderr)
         test_output = self.decoder.generate(
             input_ids=expanded_prompt_ids,
             inputs_embeds=inputs_embeds,
             max_new_tokens=10,  # Just generate a few tokens to test
             **{k: v for k, v in generate_kwargs.items() if k != 'max_new_tokens'}
         )
+        # Debug the output
+        full_text = self.tokenizer.decode(test_output[0], skip_special_tokens=True)
+        print(f"DEBUG: Full output text: {full_text}", file=sys.stderr)
         test_text = self.tokenizer.decode(test_output[0, input_token_count:], skip_special_tokens=True)
+        print(f"DEBUG: Non-threaded test output (after removing prompt): {test_text}", file=sys.stderr)
         # Set up the streamer
         streamer = TextIteratorStreamer(