mispeech
/

midashenglm-7b-0804-fp32

+---
+license: apache-2.0
+language:
+- en
+- zh
+# TODO 明确支持的语言
+tags:
+- multimodal
+- audio-language-model
+- audio
+# - audio-captioning
+# - audio-classification
+# - audio-generation
+# - audio-question-answering
+# - audio-understanding
+# - chat
+# - speech-recognition
+# - text-to-speech
+# TODO 有什么能力
+base_model:
+- mispeech/dasheng-0.6B
+- Qwen/Qwen2.5-Omni-3B
+# TODO 检查是否正确
+---
+# MiDashengLM
+## Usage
+Dependencies:
+* `transformers`
+* `torchaudio`
+TODO：以下由Qwen2.5-Omni-3B依赖，引入路径未知，需要去除
+* `pillow`
+* `torchvision`
+### Inference
+```python
+>>> from transformers import AutoModelForCausalLM, AutoProcessor
+>>> model = AutoModelForCausalLM.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
+>>> processor = AutoProcessor.from_pretrained("zhoukz/MiDashengLM-HF-dev", trust_remote_code=True)
+>>> import torchaudio
+>>> audio, sr = torchaudio.load("path/to/audio.wav")
+>>> assert sr == 16000
+>>> text = ["<|im_start|>system\\nYou are a helpful language and speech assistant.<|im_end|>\\n<|im_start|>user\\nCaption the audio<|audio_bos|><|AUDIO|><|audio_eos|><|im_end|>\\n<|im_start|>assistant\\n'"]
+>>> model_inputs = processor(text=text, audio=audio)
+>>> output = model.generate(**model_inputs)
+>>> print(output)
+["An engine is idling.'"]
+```
+## Citation
+```bibtex
+TODO
+```