bofenghuang
/

wav2vec2-xls-r-1b-voxpopuli-fr

@@ -79,55 +79,78 @@ model-index:
 # Fine-tuned Wav2Vec2 XLS-R 1B model for ASR in French
 This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the POLINAETERNA/VOXPOPULI - FR dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.2906
-- Wer: 0.1093
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 0.0001
-- train_batch_size: 16
-- eval_batch_size: 8
-- seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 128
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 12.0
-- mixed_precision_training: Native AMP
-### Training results
-| Training Loss | Epoch | Step | Validation Loss | Wer    |
-|:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.4628        | 0.93  | 500  | 0.3834          | 0.1625 |
-| 0.3577        | 1.85  | 1000 | 0.3231          | 0.1367 |
-| 0.3103        | 2.78  | 1500 | 0.2918          | 0.1287 |
-| 0.2884        | 3.7   | 2000 | 0.2845          | 0.1227 |
-| 0.2615        | 4.63  | 2500 | 0.2819          | 0.1189 |
-| 0.242         | 5.56  | 3000 | 0.2915          | 0.1165 |
-| 0.2268        | 6.48  | 3500 | 0.2768          | 0.1187 |
-| 0.2188        | 7.41  | 4000 | 0.2719          | 0.1128 |
-| 0.1979        | 8.33  | 4500 | 0.2741          | 0.1134 |
-| 0.1834        | 9.26  | 5000 | 0.2827          | 0.1096 |
-| 0.1719        | 10.19 | 5500 | 0.2906          | 0.1093 |
-| 0.1723        | 11.11 | 6000 | 0.2868          | 0.1104 |
-### Framework versions
-- Transformers 4.23.0.dev0
-- Pytorch 1.12.0+cu113
-- Datasets 2.4.0
-- Tokenizers 0.12.1
 ## Evaluation
-1. To evaluate on `mozilla-foundation/common_voice_9_0`
 ```bash
 python eval.py \

 # Fine-tuned Wav2Vec2 XLS-R 1B model for ASR in French
 This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the POLINAETERNA/VOXPOPULI - FR dataset.
+## Usage
+1. To use on a local audio file without the language model
+```python
+import torch
+import torchaudio
+from transformers import AutoModelForCTC, Wav2Vec2Processor
+processor = Wav2Vec2Processor.from_pretrained("bhuang/wav2vec2-xls-r-1b-voxpopuli-fr")
+model = AutoModelForCTC.from_pretrained("bhuang/wav2vec2-xls-r-1b-voxpopuli-fr").cuda()
+# path to your audio file
+wav_path = "/projects/bhuang/corpus/speech/multilingual-tedx/fr-fr/flac/09UU0I9gLNc_0.flac"
+waveform, sample_rate = torchaudio.load(wav_path)
+waveform = waveform.squeeze(axis=0)  # mono
+# resample
+if sample_rate != 16_000:
+    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
+    waveform = resampler(waveform)
+# normalize
+input_dict = processor(waveform, sampling_rate=16_000, return_tensors="pt")
+with torch.inference_mode():
+    logits = model(input_dict.input_values.to("cuda")).logits
+# decode
+predicted_ids = torch.argmax(logits, dim=-1)
+predicted_sentence = processor.batch_decode(predicted_ids)[0]
+```
+2. To use on a local audio file with the language model
+```python
+import torch
+import torchaudio
+from transformers import AutoModelForCTC, Wav2Vec2ProcessorWithLM
+processor_with_lm = Wav2Vec2ProcessorWithLM.from_pretrained("bhuang/wav2vec2-xls-r-1b-voxpopuli-fr")
+model = AutoModelForCTC.from_pretrained("bhuang/wav2vec2-xls-r-1b-voxpopuli-fr").cuda()
+model_sampling_rate = processor_with_lm.feature_extractor.sampling_rate
+# path to your audio file
+wav_path = "/projects/bhuang/corpus/speech/multilingual-tedx/fr-fr/flac/09UU0I9gLNc_0.flac"
+waveform, sample_rate = torchaudio.load(wav_path)
+waveform = waveform.squeeze(axis=0)  # mono
+# resample
+if sample_rate != 16_000:
+    resampler = torchaudio.transforms.Resample(sample_rate, 16_000)
+    waveform = resampler(waveform)
+# normalize
+input_dict = processor_with_lm(waveform, sampling_rate=16_000, return_tensors="pt")
+with torch.inference_mode():
+    logits = model(input_dict.input_values.to("cuda")).logits
+predicted_sentence = processor_with_lm.batch_decode(logits.cpu().numpy()).text[0]
+```
 ## Evaluation
+1. To evaluate on `polinaeterna/voxpopuli`
 ```bash
 python eval.py \