primeline/gerqwen-audio

Einführung

Das Modell "primeline/gerqwen-audio" ist eine Weiterentwicklung der Qwen2-Audio-Serie, speziell angepasst und weitertrainiert für die deutsche Sprache. Dieses Modell ist darauf ausgelegt, verschiedene Audioeingaben zu akzeptieren und detaillierte Audioanalysen durchzuführen oder direkte textuelle Antworten auf Sprachanweisungen zu geben. Es unterstützt insbesondere:

Analyse der Sprecher nach Altersgruppen und Geschlecht
Spracherkennung
Bewertung und Korrektur von Transkripten

Das Modell wurde von der Primeline Gruppe gesponsert und auf dem Just Add AI GenAI Meetup 2 vorgestellt.

Für weitere Details verweisen wir auf die Original-Blogbeiträge und GitHub-Repositories der Qwen-Modelle.

Anforderungen

Das Modell "primeline/gerqwen-audio" basiert auf den neuesten Hugging Face Transformers. Wir empfehlen, die Bibliothek direkt aus der Quelle zu installieren mit dem Befehl pip install git+https://github.com/huggingface/transformers, um mögliche Fehler zu vermeiden.

Schnellstart

Hier ein Codebeispiel, das zeigt, wie der Prozessor und das Modell geladen werden, um das vortrainierte "primeline/gerqwen-audio" Modell für die Generierung von Inhalten zu verwenden:

from io import BytesIO
from urllib.request import urlopen
import librosa
from transformers import AutoProcessor, Qwen2AudioForConditionalGeneration

model = Qwen2AudioForConditionalGeneration.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("primeline/gerqwen-audio", trust_remote_code=True)

prompt = "<|audio_bos|><|AUDIO|><|audio_eos|>Generiere die Transkription auf Deutsch:"
url = "https://beispiel-audio-url.de/audio.mp3"
audio, sr = librosa.load(BytesIO(urlopen(url).read()), sr=processor.feature_extractor.sampling_rate)
inputs = processor(text=prompt, audios=audio, return_tensors="pt")

generated_ids = model.generate(**inputs, max_length=256)
generated_ids = generated_ids[:, inputs.input_ids.size(1):]
response = processor.batch_decode(generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

Zitation

Wenn Sie unsere Arbeit nützlich finden, zitieren Sie uns gerne. Beachten Sie, dass dieses Modell eine Weiterentwicklung der ursprünglichen Arbeiten von Qwen ist.

@article{primeline-gerqwen-audio,
  title={primeline/gerqwen-audio: Fortsetzung des Trainings für spezifische Audioanalyse-Aufgaben},
  author={Originalautoren: Chu, Yunfei et al.},
  journal={arXiv preprint arXiv:2407.10759, Weiterentwicklung für spezifische Aufgaben},
  year={2024}
}

@article{Qwen-Audio,
  title={Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models},
  author={Chu, Yunfei and Xu, Jin and Zhou, Xiaohuan and Yang, Qian and Zhang, Shiliang and Yan, Zhijie  and Zhou, Chang and Zhou, Jingren},
  journal={arXiv preprint arXiv:2311.07919},
  year={2023}
}