Edresson
/

wav2vec2-large-xlsr-coraa-portuguese

+---
+language: pt
+datasets:
+- CORAA
+metrics:
+- wer
+tags:
+- audio
+- speech
+- wav2vec2
+- pt
+- portuguese-speech-corpus
+- automatic-speech-recognition
+- speech
+- PyTorch
+license: apache-2.0
+model-index:
+- name: Edresson Casanova XLSR Wav2Vec2 Large 53 Portuguese
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    metrics:
+       - name: Test CORAA WER
+         type: wer
+         value: 25.26
+---
+# Wav2vec 2.0 trained with CORAA Portuguese Dataset
+This a the demonstration of a fine-tuned Wav2vec model for Portuguese using the following  [CORAA dataset](https://github.com/nilc-nlp/CORAA)
+#### Transcription examples
+| Text                                                                                                       | Transcription                                                                                                |
+|------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------|
+| Ã‰ comum os usuÃ¡rios confundirem software livre com software livre                                          | Ã‰ comum os __usuares__ __confunder em__ __softwerlivr__ com __softwerlivre__                                          |
+| Ele fez tanto ghostwriting que ele comeÃ§a a se sentir como um fantasma tambÃ©m                              | Ele fez tanto __golstraitn__ que ele __comeÃ§ou__ a se sentir como um fantasma tambÃ©m                           |
+| Arnold apresentou um grÃ¡fico mostrando quantas cegonhas ele havia contado nos Ãºltimos dez anos             | Arnold apresentou um grÃ¡fico mostrando quantas __segonhas__ ele havia contado nos Ãºltimos dez anos            |
+| Mais cedo ou mais tarde eles descobrirÃ£o como ler esses hierÃ³glifos                                        | Mais __sedo__ ou mais tarde eles descobriram como __de__ esses __ierogrÃ´ficos__                                 |
+| Viver juntos compartilhar objetivos e ter um bom relacionamento                                            | __E ver__ juntos __signafica__ viver juntos ou __fartlhar__ objetivos ter um bom __relacionamentoo__             |
+| Da mesma forma uma patente pode impedir que concorrentes desenvolvam produtos similares                    | Da mesma forma uma patente pode impedir que concorrentes __desenvolva__ produtos similares                    |
+| Duas mulheres e uma menina levantam com trofÃ©us                                                            | Duas mulheres e uma menina levantam com __trofÃ©s__                                                            |
+| Esse acrobata de circo deve ter um sistema vestibular bem treinado pensou o espectador                     | Esse acrobata de __cirko__ deve ter um sistema vestibular __bemtreinado__ pensou o espectador                  |
+| Durante a exposiÃ§Ã£o o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere apropriados | Durante a exposiÃ§Ã£o o tribunal pode fazer quaisquer perguntas ou esclarecimentos que considere __apropriado__ |
+## Imports and dependencies
+```python
+%%capture
+!pip install datasets
+!pip install jiwer
+!pip install torchaudio
+!pip install transformers
+!pip install soundfile
+```
+```python
+import torchaudio
+from datasets import load_dataset, load_metric
+from transformers import (
+    Wav2Vec2ForCTC,
+    Wav2Vec2Processor,
+)
+import torch
+import re
+import sys
+```
+## Preparation
+```python
+chars_to_ignore_regex = '[\,\?\.\!\;\:\"]'  # noqa: W605
+wer = load_metric("wer")
+device = "cuda"
+```
+```python
+model_name = 'Edresson/wav2vec2-large-xlsr-coraa-portuguese'
+model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+```
+```python
+def map_to_pred(batch):
+    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
+    input_values = features.input_values.to(device)
+    attention_mask = features.attention_mask.to(device)
+    with torch.no_grad():
+        logits = model(input_values, attention_mask=attention_mask).logits
+    pred_ids = torch.argmax(logits, dim=-1)
+    batch["predicted"] = processor.batch_decode(pred_ids)
+    batch["predicted"] = [pred.lower() for pred in batch["predicted"]]
+    batch["target"] = batch["sentence"]
+    return batch
+```
+## Tests
+For the results consult the [CORAA article](https://arxiv.org/abs/2110.15731)
+### Example with Common Voice
+```python
+dataset = load_dataset("common_voice", "pt", split="test", data_dir="./cv-corpus-6.1-2020-12-11")
+resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
+def map_to_array(batch):
+    speech, _ = torchaudio.load(batch["path"])
+    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
+    batch["sampling_rate"] = resampler.new_freq
+    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("â€™", "'")
+    return batch
+```
+```python
+ds = dataset.map(map_to_array)
+result = ds.map(map_to_pred, batched=True, batch_size=1, remove_columns=list(ds.features.keys()))
+print(wer.compute(predictions=result["predicted"], references=result["target"]))
+```