mispeech
/

midashenglm-7b-0804-fp32

Audio-Text-to-Text

audio-language-model

Model card Files Files and versions

zhoukz commited on Jun 27

Commit

182f777

·

1 Parent(s): c2eff08

Upload folder using huggingface_hub

Files changed (2) hide show

README.md +4 -2
modeling_midashenglm.py +0 -2

README.md CHANGED Viewed

@@ -42,6 +42,7 @@ TODO：以下由Qwen2.5-Omni-3B依赖，引入路径未知，需要去除
 ```python
 >>> from transformers import AutoModelForCausalLM, AutoProcessor
 >>> model = AutoModelForCausalLM.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
 >>> processor = AutoProcessor.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
 >>> import torchaudio
@@ -49,8 +50,9 @@ TODO：以下由Qwen2.5-Omni-3B依赖，引入路径未知，需要去除
 >>> assert sr == 16000
 >>> text = ["<|im_start|>system\\nYou are a helpful language and speech assistant.<|im_end|>\\n<|im_start|>user\\nCaption the audio<|audio_bos|><|AUDIO|><|audio_eos|><|im_end|>\\n<|im_start|>assistant\\n'"]
->>> model_inputs = processor(text=text, audio=audio)
->>> output = model.generate(**model_inputs)
 >>> print(output)
 ["An engine is idling.'"]
 ```

 ```python
 >>> from transformers import AutoModelForCausalLM, AutoProcessor
 >>> model = AutoModelForCausalLM.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
+>>> model.eval()
 >>> processor = AutoProcessor.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
 >>> import torchaudio
 >>> assert sr == 16000
 >>> text = ["<|im_start|>system\\nYou are a helpful language and speech assistant.<|im_end|>\\n<|im_start|>user\\nCaption the audio<|audio_bos|><|AUDIO|><|audio_eos|><|im_end|>\\n<|im_start|>assistant\\n'"]
+>>> with torch.no_grad():
+...     model_inputs = processor(text=text, audio=audio)
+...     output = model.generate(**model_inputs)
 >>> print(output)
 ["An engine is idling.'"]
 ```

modeling_midashenglm.py CHANGED Viewed

@@ -667,8 +667,6 @@ class DashengQwen25OmniModelInstruct(PreTrainedModel):
         subsample_factor = config.subsample_factor
         use_encoderattention_mask = config.use_encoderattention_mask
         resize_tokenizer = True
-        lora_r = 8
-        lora_target_modules = ("q_proj", "v_proj")
         force_fp32 = False
         from transformers.models.qwen2_5_omni import (

         subsample_factor = config.subsample_factor
         use_encoderattention_mask = config.use_encoderattention_mask
         resize_tokenizer = True
         force_fp32 = False
         from transformers.models.qwen2_5_omni import (