Whisper large-v3 fine-tuné sur Darija (DODA)

Modèle Whisper large-v3 fine-tuné avec LoRA sur le dataset DODA pour la transcription automatique du dialecte marocain (Darija).

Utilisation

from transformers import WhisperForConditionalGeneration, WhisperProcessor
from peft import PeftModel
import torch

base = WhisperForConditionalGeneration.from_pretrained(
    "openai/whisper-large-v3",
    torch_dtype=torch.float16,
    device_map="auto"
)
model = PeftModel.from_pretrained(base, "Hafsa0/whisper-large-v3-darija-lora")
processor = WhisperProcessor.from_pretrained("Hafsa0/whisper-large-v3-darija-lora")

# Transcription
inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
    ids = model.generate(inputs.input_features.half().to("cuda"),
                         language="arabic", task="transcribe")
print(processor.tokenizer.decode(ids[0], skip_special_tokens=True))

Entraînement

Dataset : atlasia/DODa-audio-dataset (~10 000 exemples)
LoRA : r=8, alpha=16, target=q_proj+v_proj (decoder uniquement)
GPU : Tesla T4

Downloads last month: 195

Model tree for Hafsa0/whisper-large-v3-darija-lora

Base model

openai/whisper-large-v3

Adapter

(214)

this model

Hafsa0
/

whisper-large-v3-darija-lora

Whisper large-v3 fine-tuné sur Darija (DODA)

Utilisation

Entraînement

Model tree for Hafsa0/whisper-large-v3-darija-lora

Dataset used to train Hafsa0/whisper-large-v3-darija-lora

Space using Hafsa0/whisper-large-v3-darija-lora 1