updated model weights

Browse files

Files changed (8) hide show

.ipynb_checkpoints/README-checkpoint.md +115 -0
.ipynb_checkpoints/vocab-checkpoint.json +1 -0
config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +2 -2
scheduler.pt +1 -1
trainer_state.json +157 -877
training_args.bin +1 -1

.ipynb_checkpoints/README-checkpoint.md ADDED Viewed

	@@ -0,0 +1,115 @@

+---
+language: mr
+datasets:
+- openslr
+- interspeech_2021_asr
+metrics:
+- wer
+tags:
+- audio
+- automatic-speech-recognition
+- speech
+- xlsr-fine-tuning-week
+- hindi
+- marathi
+license: apache-2.0
+model-index:
+- name: XLSR Wav2Vec2 Large 53 Hindi-Marathi by Tanmay Laud
+  results:
+  - task:
+      name: Speech Recognition
+      type: automatic-speech-recognition
+    dataset:
+      name: OpenSLR hi, OpenSLR mr
+      type: openslr, interspeech_2021_asr
+    metrics:
+       - name: Test WER
+         type: wer
+         value: 24.92
+---
+# Wav2Vec2-Large-XLSR-53-Hindi-Marathi
+Fine-tuned facebook/wav2vec2-large-xlsr-53 on Hindi and Marathi using the OpenSLR SLR64 datasets. When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
+ The model can be used directly (without a language model) as follows, assuming you have a dataset with Marathi text and audio_path fields:
+```
+import torch
+import torchaudio
+import librosa
+from datasets import load_dataset
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+# test_data = #TODO: WRITE YOUR CODE TO LOAD THE TEST DATASET. For sample see the Colab link in Training Section.
+processor = Wav2Vec2Processor.from_pretrained("tanmaylaud/wav2vec2-large-xlsr-hindi-marathi")
+model = Wav2Vec2ForCTC.from_pretrained("tanmaylaud/wav2vec2-large-xlsr-hindi-marathi")
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    speech_array, sampling_rate = torchaudio.load(batch["audio_path"])
+    batch["speech"] = librosa.resample(speech_array[0].numpy(), sampling_rate, 16_000) # sampling_rate can vary
+    return batch
+test_data= test_data.map(speech_file_to_array_fn)
+inputs = processor(test_data["speech"][:2], sampling_rate=16_000, return_tensors="pt", padding=True)
+with torch.no_grad():
+    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
+predicted_ids = torch.argmax(logits, dim=-1)
+print("Prediction:", processor.batch_decode(predicted_ids))
+print("Reference:", test_data["text"][:2])
+Evaluation
+The model can be evaluated as follows on 10% of the Marathi data on OpenSLR.
+```
+```
+import torchaudio
+from datasets import load_metric
+from transformers import Wav2Vec2Processor,Wav2Vec2ForCTC
+import torch
+import librosa
+import numpy as np
+import re
+wer = load_metric("wer")
+processor = Wav2Vec2Processor.from_pretrained("tanmaylaud/wav2vec2-large-xlsr-hindi-marathi")
+model = Wav2Vec2ForCTC.from_pretrained("tanmaylaud/wav2vec2-large-xlsr-hindi-marathi")
+model.to("cuda")
+chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\“\%\‘\”\�\।]'
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def speech_file_to_array_fn(batch):
+    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"])
+    speech_array, sampling_rate = torchaudio.load(batch["path"])
+    batch["speech"] = speech_array[0].numpy()
+    batch["sampling_rate"] = sampling_rate
+    batch["target_text"] = batch["sentence"]
+    batch["speech"] = librosa.resample(np.asarray(batch["speech"]), sampling_rate, 16_000)
+    batch["sampling_rate"] = 16_000
+    return batch
+test= test.map(speech_file_to_array_fn)
+# Preprocessing the datasets.
+# We need to read the audio files as arrays
+def evaluate(batch):
+    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits
+        pred_ids = torch.argmax(logits, dim=-1)
+        batch["pred_strings"] = processor.batch_decode(pred_ids, group_tokens=False)
+        # we do not want to group tokens when computing the metrics
+        return batch
+result = test.map(evaluate, batched=True, batch_size=32)
+print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["text"])))
+```
+Link to eval notebook : https://colab.research.google.com/drive/1nZRTgKfxCD9cvy90wikTHkg2il3zgcqW#scrollTo=cXWFbhb0d7DT

.ipynb_checkpoints/vocab-checkpoint.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"ँ": 1, "ं": 2, "ः": 3, "अ": 4, "आ": 5, "इ": 6, "ई": 7, "उ": 8, "ऊ": 9, "ऋ": 10, "ऍ": 11, "ए": 12, "ऐ": 13, "ऑ": 14, "ओ": 15, "औ": 16, "क": 17, "ख": 18, "ग": 19, "घ": 20, "च": 21, "छ": 22, "ज": 23, "झ": 24, "ञ": 25, "ट": 26, "ठ": 27, "ड": 28, "ढ": 29, "ण": 30, "त": 31, "थ": 32, "द": 33, "ध": 34, "न": 35, "प": 36, "फ": 37, "ब": 38, "भ": 39, "म": 40, "य": 41, "र": 42, "ल": 43, "ळ": 44, "व": 45, "श": 46, "ष": 47, "स": 48, "ह": 49, "़": 50, "ा": 51, "ि": 52, "ी": 53, "ु": 54, "ू": 55, "ृ": 56, "ॅ": 57, "े": 58, "ै": 59, "ॉ": 60, "ो": 61, "ौ": 62, "्": 63, "क़": 64, "ख़": 65, "ग़": 66, "ज़": 67, "ड़": 68, "ढ़": 69, "फ़": 70, "ॠ": 71, "|": 0, "[UNK]": 72, "[PAD]": 73}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/wav2vec2-large-xlsr-53",
   "activation_dropout": 0.1,
   "apply_spec_augment": true,
   "architectures": [

 {
+  "_name_or_path": "/workspace/output_models/hi-mr/wav2vec2-large-xlsr-hindi-marathi-3/pretrained/checkpoint-6200",
   "activation_dropout": 0.1,
   "apply_spec_augment": true,
   "architectures": [

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b538512208981b86bad40c84dca35d6debe0480643b51f75675349c77e210c3
 size 2490683911

 version https://git-lfs.github.com/spec/v1
+oid sha256:b23ed37c63cbd526a091960074331c9fbfd62f9d565429c9b93a7c0eb52f53cf
 size 2490683911

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d2ba642a7c83d88a9b82b15757e40514fecf6e95a473f3915b831030070f15d
-size 1262237207

 version https://git-lfs.github.com/spec/v1
+oid sha256:93144d21b0411a36226c50063dbe960dcf87724fd5d564a255d8440ca7775038
+size 1262237208

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f676aeb2802a2b9a559dffe2909c5347f7a37bf0aa25486203d2b34b9322c69a
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbe28cde8077f5499e53dba7300dfa7447b2a12524fef45b273ea4b6f7b628dc
 size 623

trainer_state.json CHANGED Viewed

@@ -1,1016 +1,296 @@
 {
-  "best_metric": 0.24944954621126686,
-  "best_model_checkpoint": "/workspace/output_models/hi-mr/wav2vec2-large-xlsr-hindi-marathi-3/checkpoint-10000",
-  "epoch": 16.0,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16,
-      "learning_rate": 6.666666666666666e-05,
-      "loss": 16.623,
       "step": 100
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.0001333333333333333,
-      "loss": 3.8395,
       "step": 200
     },
     {
       "epoch": 0.32,
-      "eval_loss": 3.426492214202881,
-      "eval_runtime": 80.6897,
-      "eval_samples_per_second": 24.786,
-      "eval_wer": 1.0,
       "step": 200
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 3.4548,
       "step": 300
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 0.0002666666666666666,
-      "loss": 3.3471,
       "step": 400
     },
     {
-      "epoch": 0.64,
-      "eval_loss": 2.9866673946380615,
-      "eval_runtime": 81.4064,
-      "eval_samples_per_second": 24.568,
-      "eval_wer": 1.0,
       "step": 400
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 0.0002991803278688524,
-      "loss": 1.9911,
       "step": 500
     },
     {
-      "epoch": 0.96,
-      "learning_rate": 0.00029754098360655737,
-      "loss": 0.9874,
       "step": 600
     },
     {
-      "epoch": 0.96,
-      "eval_loss": 0.6858933568000793,
-      "eval_runtime": 82.4721,
-      "eval_samples_per_second": 24.251,
-      "eval_wer": 0.5436335320337253,
       "step": 600
     },
     {
-      "epoch": 1.12,
-      "learning_rate": 0.00029590163934426226,
-      "loss": 0.7698,
       "step": 700
     },
     {
-      "epoch": 1.28,
-      "learning_rate": 0.00029426229508196716,
-      "loss": 0.6471,
       "step": 800
     },
     {
-      "epoch": 1.28,
-      "eval_loss": 0.5174924731254578,
-      "eval_runtime": 82.661,
-      "eval_samples_per_second": 24.195,
-      "eval_wer": 0.43928897481338275,
       "step": 800
     },
     {
-      "epoch": 1.44,
-      "learning_rate": 0.0002926229508196721,
-      "loss": 0.568,
       "step": 900
     },
     {
-      "epoch": 1.6,
-      "learning_rate": 0.000290983606557377,
-      "loss": 0.5393,
       "step": 1000
     },
     {
-      "epoch": 1.6,
-      "eval_loss": 0.4453641474246979,
-      "eval_runtime": 83.0998,
-      "eval_samples_per_second": 24.067,
-      "eval_wer": 0.39015090489232584,
       "step": 1000
     },
     {
-      "epoch": 1.76,
-      "learning_rate": 0.00028934426229508195,
-      "loss": 0.5009,
       "step": 1100
     },
     {
-      "epoch": 1.92,
-      "learning_rate": 0.00028770491803278684,
-      "loss": 0.4932,
       "step": 1200
     },
     {
-      "epoch": 1.92,
-      "eval_loss": 0.41159647703170776,
-      "eval_runtime": 83.9345,
-      "eval_samples_per_second": 23.828,
-      "eval_wer": 0.37189194994898234,
       "step": 1200
     },
     {
-      "epoch": 2.08,
-      "learning_rate": 0.00028606557377049174,
-      "loss": 0.4407,
       "step": 1300
     },
     {
-      "epoch": 2.24,
-      "learning_rate": 0.00028442622950819674,
-      "loss": 0.3891,
       "step": 1400
     },
     {
-      "epoch": 2.24,
-      "eval_loss": 0.4060937166213989,
-      "eval_runtime": 82.5906,
-      "eval_samples_per_second": 24.216,
-      "eval_wer": 0.3500886096342839,
       "step": 1400
     },
     {
-      "epoch": 2.4,
-      "learning_rate": 0.00028278688524590163,
-      "loss": 0.393,
       "step": 1500
     },
     {
-      "epoch": 2.56,
-      "learning_rate": 0.00028114754098360653,
-      "loss": 0.3723,
       "step": 1600
     },
     {
-      "epoch": 2.56,
-      "eval_loss": 0.37875330448150635,
-      "eval_runtime": 83.1067,
-      "eval_samples_per_second": 24.065,
-      "eval_wer": 0.3370388271306589,
       "step": 1600
     },
     {
-      "epoch": 2.72,
-      "learning_rate": 0.0002795081967213115,
-      "loss": 0.3732,
       "step": 1700
     },
     {
-      "epoch": 2.88,
-      "learning_rate": 0.00027786885245901637,
-      "loss": 0.3536,
       "step": 1800
     },
     {
-      "epoch": 2.88,
-      "eval_loss": 0.3747707009315491,
-      "eval_runtime": 83.4226,
-      "eval_samples_per_second": 23.974,
-      "eval_wer": 0.3268889962945062,
       "step": 1800
     },
     {
-      "epoch": 3.04,
-      "learning_rate": 0.0002762295081967213,
-      "loss": 0.3394,
       "step": 1900
     },
     {
-      "epoch": 3.2,
-      "learning_rate": 0.0002745901639344262,
-      "loss": 0.2952,
       "step": 2000
     },
     {
-      "epoch": 3.2,
-      "eval_loss": 0.3621469736099243,
-      "eval_runtime": 82.21,
-      "eval_samples_per_second": 24.328,
-      "eval_wer": 0.31018742280221256,
       "step": 2000
     },
     {
-      "epoch": 3.36,
-      "learning_rate": 0.0002729508196721311,
-      "loss": 0.3014,
       "step": 2100
     },
     {
-      "epoch": 3.52,
-      "learning_rate": 0.00027131147540983606,
-      "loss": 0.2984,
       "step": 2200
     },
     {
-      "epoch": 3.52,
-      "eval_loss": 0.35865798592567444,
-      "eval_runtime": 83.2434,
-      "eval_samples_per_second": 24.026,
-      "eval_wer": 0.2970302346812738,
       "step": 2200
     },
     {
-      "epoch": 3.68,
-      "learning_rate": 0.00026967213114754095,
-      "loss": 0.2826,
       "step": 2300
     },
     {
-      "epoch": 3.84,
-      "learning_rate": 0.0002680327868852459,
-      "loss": 0.2821,
       "step": 2400
     },
     {
-      "epoch": 3.84,
-      "eval_loss": 0.3647235035896301,
-      "eval_runtime": 83.2284,
-      "eval_samples_per_second": 24.03,
-      "eval_wer": 0.30664303743085763,
       "step": 2400
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 0.0002663934426229508,
-      "loss": 0.27,
       "step": 2500
     },
     {
-      "epoch": 4.16,
-      "learning_rate": 0.0002647540983606557,
-      "loss": 0.2433,
       "step": 2600
     },
     {
-      "epoch": 4.16,
-      "eval_loss": 0.3836052119731903,
-      "eval_runtime": 82.8815,
-      "eval_samples_per_second": 24.131,
-      "eval_wer": 0.3012190537565115,
       "step": 2600
     },
     {
-      "epoch": 4.32,
-      "learning_rate": 0.00026311475409836063,
-      "loss": 0.2373,
       "step": 2700
     },
     {
-      "epoch": 4.48,
-      "learning_rate": 0.00026147540983606553,
-      "loss": 0.2304,
       "step": 2800
     },
     {
-      "epoch": 4.48,
-      "eval_loss": 0.3565887212753296,
-      "eval_runtime": 83.2398,
-      "eval_samples_per_second": 24.027,
-      "eval_wer": 0.2935395521185758,
       "step": 2800
-    },
-    {
-      "epoch": 4.64,
-      "learning_rate": 0.0002598360655737705,
-      "loss": 0.2262,
-      "step": 2900
-    },
-    {
-      "epoch": 4.8,
-      "learning_rate": 0.00025819672131147537,
-      "loss": 0.2249,
-      "step": 3000
-    },
-    {
-      "epoch": 4.8,
-      "eval_loss": 0.371224969625473,
-      "eval_runtime": 83.7191,
-      "eval_samples_per_second": 23.889,
-      "eval_wer": 0.285913753289297,
-      "step": 3000
-    },
-    {
-      "epoch": 4.96,
-      "learning_rate": 0.00025655737704918027,
-      "loss": 0.2232,
-      "step": 3100
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 0.0002549180327868852,
-      "loss": 0.2055,
-      "step": 3200
-    },
-    {
-      "epoch": 5.12,
-      "eval_loss": 0.36438417434692383,
-      "eval_runtime": 82.4039,
-      "eval_samples_per_second": 24.271,
-      "eval_wer": 0.28048976961495087,
-      "step": 3200
-    },
-    {
-      "epoch": 5.28,
-      "learning_rate": 0.00025327868852459016,
-      "loss": 0.1999,
-      "step": 3300
-    },
-    {
-      "epoch": 5.44,
-      "learning_rate": 0.00025163934426229506,
-      "loss": 0.1969,
-      "step": 3400
-    },
-    {
-      "epoch": 5.44,
-      "eval_loss": 0.371999055147171,
-      "eval_runtime": 83.0961,
-      "eval_samples_per_second": 24.069,
-      "eval_wer": 0.28204715106600076,
-      "step": 3400
-    },
-    {
-      "epoch": 5.6,
-      "learning_rate": 0.00025,
-      "loss": 0.1949,
-      "step": 3500
-    },
-    {
-      "epoch": 5.76,
-      "learning_rate": 0.0002483606557377049,
-      "loss": 0.1945,
-      "step": 3600
-    },
-    {
-      "epoch": 5.76,
-      "eval_loss": 0.3662562370300293,
-      "eval_runtime": 82.7035,
-      "eval_samples_per_second": 24.183,
-      "eval_wer": 0.28435637183824714,
-      "step": 3600
-    },
-    {
-      "epoch": 5.92,
-      "learning_rate": 0.00024672131147540985,
-      "loss": 0.191,
-      "step": 3700
-    },
-    {
-      "epoch": 6.08,
-      "learning_rate": 0.00024508196721311474,
-      "loss": 0.1689,
-      "step": 3800
-    },
-    {
-      "epoch": 6.08,
-      "eval_loss": 0.3731316328048706,
-      "eval_runtime": 83.1862,
-      "eval_samples_per_second": 24.042,
-      "eval_wer": 0.2787712797379303,
-      "step": 3800
-    },
-    {
-      "epoch": 6.24,
-      "learning_rate": 0.00024344262295081966,
-      "loss": 0.1631,
-      "step": 3900
-    },
-    {
-      "epoch": 6.4,
-      "learning_rate": 0.00024180327868852458,
-      "loss": 0.1568,
-      "step": 4000
-    },
-    {
-      "epoch": 6.4,
-      "eval_loss": 0.37625598907470703,
-      "eval_runtime": 83.6104,
-      "eval_samples_per_second": 23.92,
-      "eval_wer": 0.2781805488427045,
-      "step": 4000
-    },
-    {
-      "epoch": 6.56,
-      "learning_rate": 0.00024016393442622948,
-      "loss": 0.1665,
-      "step": 4100
-    },
-    {
-      "epoch": 6.72,
-      "learning_rate": 0.0002385245901639344,
-      "loss": 0.1581,
-      "step": 4200
-    },
-    {
-      "epoch": 6.72,
-      "eval_loss": 0.3642520606517792,
-      "eval_runtime": 83.3706,
-      "eval_samples_per_second": 23.989,
-      "eval_wer": 0.2725954567423876,
-      "step": 4200
-    },
-    {
-      "epoch": 6.88,
-      "learning_rate": 0.00023688524590163932,
-      "loss": 0.1517,
-      "step": 4300
-    },
-    {
-      "epoch": 7.04,
-      "learning_rate": 0.00023524590163934424,
-      "loss": 0.1529,
-      "step": 4400
-    },
-    {
-      "epoch": 7.04,
-      "eval_loss": 0.3819567859172821,
-      "eval_runtime": 83.7194,
-      "eval_samples_per_second": 23.889,
-      "eval_wer": 0.27238064550776003,
-      "step": 4400
-    },
-    {
-      "epoch": 7.2,
-      "learning_rate": 0.00023360655737704916,
-      "loss": 0.1344,
-      "step": 4500
-    },
-    {
-      "epoch": 7.36,
-      "learning_rate": 0.00023196721311475406,
-      "loss": 0.1363,
-      "step": 4600
-    },
-    {
-      "epoch": 7.36,
-      "eval_loss": 0.38544762134552,
-      "eval_runtime": 83.3319,
-      "eval_samples_per_second": 24.0,
-      "eval_wer": 0.2733472960635841,
-      "step": 4600
-    },
-    {
-      "epoch": 7.52,
-      "learning_rate": 0.00023032786885245898,
-      "loss": 0.1276,
-      "step": 4700
-    },
-    {
-      "epoch": 7.68,
-      "learning_rate": 0.0002286885245901639,
-      "loss": 0.1252,
-      "step": 4800
-    },
-    {
-      "epoch": 7.68,
-      "eval_loss": 0.37892764806747437,
-      "eval_runtime": 83.6054,
-      "eval_samples_per_second": 23.922,
-      "eval_wer": 0.2722732398904463,
-      "step": 4800
-    },
-    {
-      "epoch": 7.84,
-      "learning_rate": 0.00022704918032786882,
-      "loss": 0.1328,
-      "step": 4900
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 0.00022540983606557374,
-      "loss": 0.1327,
-      "step": 5000
-    },
-    {
-      "epoch": 8.0,
-      "eval_loss": 0.3974834084510803,
-      "eval_runtime": 83.8203,
-      "eval_samples_per_second": 23.861,
-      "eval_wer": 0.2739380269588099,
-      "step": 5000
-    },
-    {
-      "epoch": 8.16,
-      "learning_rate": 0.0002237704918032787,
-      "loss": 0.1176,
-      "step": 5100
-    },
-    {
-      "epoch": 8.32,
-      "learning_rate": 0.0002221311475409836,
-      "loss": 0.1157,
-      "step": 5200
-    },
-    {
-      "epoch": 8.32,
-      "eval_loss": 0.3960728347301483,
-      "eval_runtime": 84.4842,
-      "eval_samples_per_second": 23.673,
-      "eval_wer": 0.2711991837173084,
-      "step": 5200
-    },
-    {
-      "epoch": 8.48,
-      "learning_rate": 0.0002204918032786885,
-      "loss": 0.1151,
-      "step": 5300
-    },
-    {
-      "epoch": 8.64,
-      "learning_rate": 0.00021885245901639343,
-      "loss": 0.1173,
-      "step": 5400
-    },
-    {
-      "epoch": 8.64,
-      "eval_loss": 0.40709516406059265,
-      "eval_runtime": 82.9277,
-      "eval_samples_per_second": 24.117,
-      "eval_wer": 0.2727565651683583,
-      "step": 5400
-    },
-    {
-      "epoch": 8.8,
-      "learning_rate": 0.00021721311475409835,
-      "loss": 0.1143,
-      "step": 5500
-    },
-    {
-      "epoch": 8.96,
-      "learning_rate": 0.00021557377049180327,
-      "loss": 0.1166,
-      "step": 5600
-    },
-    {
-      "epoch": 8.96,
-      "eval_loss": 0.41475972533226013,
-      "eval_runtime": 84.4573,
-      "eval_samples_per_second": 23.681,
-      "eval_wer": 0.2736695129155255,
-      "step": 5600
-    },
-    {
-      "epoch": 9.12,
-      "learning_rate": 0.0002139344262295082,
-      "loss": 0.1028,
-      "step": 5700
-    },
-    {
-      "epoch": 9.28,
-      "learning_rate": 0.00021229508196721309,
-      "loss": 0.1026,
-      "step": 5800
-    },
-    {
-      "epoch": 9.28,
-      "eval_loss": 0.4114053547382355,
-      "eval_runtime": 83.5505,
-      "eval_samples_per_second": 23.938,
-      "eval_wer": 0.2681381236238655,
-      "step": 5800
-    },
-    {
-      "epoch": 9.44,
-      "learning_rate": 0.000210655737704918,
-      "loss": 0.1004,
-      "step": 5900
-    },
-    {
-      "epoch": 9.6,
-      "learning_rate": 0.00020901639344262293,
-      "loss": 0.1121,
-      "step": 6000
-    },
-    {
-      "epoch": 9.6,
-      "eval_loss": 0.4229777753353119,
-      "eval_runtime": 83.5437,
-      "eval_samples_per_second": 23.94,
-      "eval_wer": 0.27060845282208257,
-      "step": 6000
-    },
-    {
-      "epoch": 9.76,
-      "learning_rate": 0.00020737704918032785,
-      "loss": 0.1026,
-      "step": 6100
-    },
-    {
-      "epoch": 9.92,
-      "learning_rate": 0.00020573770491803277,
-      "loss": 0.1041,
-      "step": 6200
-    },
-    {
-      "epoch": 9.92,
-      "eval_loss": 0.40711304545402527,
-      "eval_runtime": 83.5856,
-      "eval_samples_per_second": 23.928,
-      "eval_wer": 0.27017883035282747,
-      "step": 6200
-    },
-    {
-      "epoch": 10.08,
-      "learning_rate": 0.0002040983606557377,
-      "loss": 0.0877,
-      "step": 6300
-    },
-    {
-      "epoch": 10.24,
-      "learning_rate": 0.0002024590163934426,
-      "loss": 0.088,
-      "step": 6400
-    },
-    {
-      "epoch": 10.24,
-      "eval_loss": 0.437641978263855,
-      "eval_runtime": 83.2287,
-      "eval_samples_per_second": 24.03,
-      "eval_wer": 0.26797701519789485,
-      "step": 6400
-    },
-    {
-      "epoch": 10.4,
-      "learning_rate": 0.0002008196721311475,
-      "loss": 0.0941,
-      "step": 6500
-    },
-    {
-      "epoch": 10.56,
-      "learning_rate": 0.00019918032786885243,
-      "loss": 0.0884,
-      "step": 6600
-    },
-    {
-      "epoch": 10.56,
-      "eval_loss": 0.4451253414154053,
-      "eval_runtime": 84.0696,
-      "eval_samples_per_second": 23.79,
-      "eval_wer": 0.26529187476505023,
-      "step": 6600
-    },
-    {
-      "epoch": 10.72,
-      "learning_rate": 0.00019754098360655735,
-      "loss": 0.0867,
-      "step": 6700
-    },
-    {
-      "epoch": 10.88,
-      "learning_rate": 0.00019590163934426227,
-      "loss": 0.0978,
-      "step": 6800
-    },
-    {
-      "epoch": 10.88,
-      "eval_loss": 0.4322107136249542,
-      "eval_runtime": 83.5762,
-      "eval_samples_per_second": 23.93,
-      "eval_wer": 0.26475484667848126,
-      "step": 6800
-    },
-    {
-      "epoch": 11.04,
-      "learning_rate": 0.00019426229508196722,
-      "loss": 0.0834,
-      "step": 6900
-    },
-    {
-      "epoch": 11.2,
-      "learning_rate": 0.00019262295081967214,
-      "loss": 0.0785,
-      "step": 7000
-    },
-    {
-      "epoch": 11.2,
-      "eval_loss": 0.4244215190410614,
-      "eval_runtime": 83.288,
-      "eval_samples_per_second": 24.013,
-      "eval_wer": 0.25970678266473335,
-      "step": 7000
-    },
-    {
-      "epoch": 11.36,
-      "learning_rate": 0.00019098360655737704,
-      "loss": 0.0723,
-      "step": 7100
-    },
-    {
-      "epoch": 11.52,
-      "learning_rate": 0.00018934426229508196,
-      "loss": 0.0771,
-      "step": 7200
-    },
-    {
-      "epoch": 11.52,
-      "eval_loss": 0.43486374616622925,
-      "eval_runtime": 83.8141,
-      "eval_samples_per_second": 23.862,
-      "eval_wer": 0.25755867031845764,
-      "step": 7200
-    },
-    {
-      "epoch": 11.68,
-      "learning_rate": 0.00018770491803278688,
-      "loss": 0.0787,
-      "step": 7300
-    },
-    {
-      "epoch": 11.84,
-      "learning_rate": 0.0001860655737704918,
-      "loss": 0.0809,
-      "step": 7400
-    },
-    {
-      "epoch": 11.84,
-      "eval_loss": 0.44311779737472534,
-      "eval_runtime": 85.6363,
-      "eval_samples_per_second": 23.355,
-      "eval_wer": 0.2628215455668331,
-      "step": 7400
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 0.00018442622950819672,
-      "loss": 0.0778,
-      "step": 7500
-    },
-    {
-      "epoch": 12.16,
-      "learning_rate": 0.00018278688524590162,
-      "loss": 0.071,
-      "step": 7600
-    },
-    {
-      "epoch": 12.16,
-      "eval_loss": 0.47199195623397827,
-      "eval_runtime": 82.9761,
-      "eval_samples_per_second": 24.103,
-      "eval_wer": 0.2588475377262231,
-      "step": 7600
-    },
-    {
-      "epoch": 12.32,
-      "learning_rate": 0.00018114754098360654,
-      "loss": 0.074,
-      "step": 7700
-    },
-    {
-      "epoch": 12.48,
-      "learning_rate": 0.00017950819672131146,
-      "loss": 0.0677,
-      "step": 7800
-    },
-    {
-      "epoch": 12.48,
-      "eval_loss": 0.4387381672859192,
-      "eval_runtime": 83.0897,
-      "eval_samples_per_second": 24.07,
-      "eval_wer": 0.259867891090704,
-      "step": 7800
-    },
-    {
-      "epoch": 12.64,
-      "learning_rate": 0.00017786885245901638,
-      "loss": 0.0703,
-      "step": 7900
-    },
-    {
-      "epoch": 12.8,
-      "learning_rate": 0.0001762295081967213,
-      "loss": 0.0765,
-      "step": 8000
-    },
-    {
-      "epoch": 12.8,
-      "eval_loss": 0.4592679738998413,
-      "eval_runtime": 84.0398,
-      "eval_samples_per_second": 23.798,
-      "eval_wer": 0.2572364534665163,
-      "step": 8000
-    },
-    {
-      "epoch": 12.96,
-      "learning_rate": 0.0001745901639344262,
-      "loss": 0.0683,
-      "step": 8100
-    },
-    {
-      "epoch": 13.12,
-      "learning_rate": 0.00017295081967213112,
-      "loss": 0.0621,
-      "step": 8200
-    },
-    {
-      "epoch": 13.12,
-      "eval_loss": 0.4588267505168915,
-      "eval_runtime": 82.8224,
-      "eval_samples_per_second": 24.148,
-      "eval_wer": 0.2633585736534021,
-      "step": 8200
-    },
-    {
-      "epoch": 13.28,
-      "learning_rate": 0.00017131147540983604,
-      "loss": 0.065,
-      "step": 8300
-    },
-    {
-      "epoch": 13.44,
-      "learning_rate": 0.00016967213114754096,
-      "loss": 0.067,
-      "step": 8400
-    },
-    {
-      "epoch": 13.44,
-      "eval_loss": 0.4433707296848297,
-      "eval_runtime": 84.8017,
-      "eval_samples_per_second": 23.584,
-      "eval_wer": 0.25922345738682134,
-      "step": 8400
-    },
-    {
-      "epoch": 13.6,
-      "learning_rate": 0.00016803278688524588,
-      "loss": 0.067,
-      "step": 8500
-    },
-    {
-      "epoch": 13.76,
-      "learning_rate": 0.0001663934426229508,
-      "loss": 0.0633,
-      "step": 8600
-    },
-    {
-      "epoch": 13.76,
-      "eval_loss": 0.4525003433227539,
-      "eval_runtime": 82.3869,
-      "eval_samples_per_second": 24.276,
-      "eval_wer": 0.2647011438698244,
-      "step": 8600
-    },
-    {
-      "epoch": 13.92,
-      "learning_rate": 0.00016475409836065575,
-      "loss": 0.0704,
-      "step": 8700
-    },
-    {
-      "epoch": 14.08,
-      "learning_rate": 0.00016311475409836064,
-      "loss": 0.0635,
-      "step": 8800
-    },
-    {
-      "epoch": 14.08,
-      "eval_loss": 0.46746838092803955,
-      "eval_runtime": 82.2147,
-      "eval_samples_per_second": 24.327,
-      "eval_wer": 0.2580419955963697,
-      "step": 8800
-    },
-    {
-      "epoch": 14.24,
-      "learning_rate": 0.00016147540983606556,
-      "loss": 0.0568,
-      "step": 8900
-    },
-    {
-      "epoch": 14.4,
-      "learning_rate": 0.00015983606557377049,
-      "loss": 0.06,
-      "step": 9000
-    },
-    {
-      "epoch": 14.4,
-      "eval_loss": 0.46421578526496887,
-      "eval_runtime": 84.6457,
-      "eval_samples_per_second": 23.628,
-      "eval_wer": 0.25841791525696794,
-      "step": 9000
-    },
-    {
-      "epoch": 14.56,
-      "learning_rate": 0.0001581967213114754,
-      "loss": 0.0588,
-      "step": 9100
-    },
-    {
-      "epoch": 14.72,
-      "learning_rate": 0.00015655737704918033,
-      "loss": 0.0618,
-      "step": 9200
-    },
-    {
-      "epoch": 14.72,
-      "eval_loss": 0.465658038854599,
-      "eval_runtime": 83.6497,
-      "eval_samples_per_second": 23.909,
-      "eval_wer": 0.2606734332205574,
-      "step": 9200
-    },
-    {
-      "epoch": 14.88,
-      "learning_rate": 0.00015491803278688525,
-      "loss": 0.0578,
-      "step": 9300
-    },
-    {
-      "epoch": 15.04,
-      "learning_rate": 0.00015327868852459014,
-      "loss": 0.0562,
-      "step": 9400
-    },
-    {
-      "epoch": 15.04,
-      "eval_loss": 0.4753575325012207,
-      "eval_runtime": 82.0241,
-      "eval_samples_per_second": 24.383,
-      "eval_wer": 0.25831050963965413,
-      "step": 9400
-    },
-    {
-      "epoch": 15.2,
-      "learning_rate": 0.00015163934426229507,
-      "loss": 0.0489,
-      "step": 9500
-    },
-    {
-      "epoch": 15.36,
-      "learning_rate": 0.00015,
-      "loss": 0.0528,
-      "step": 9600
-    },
-    {
-      "epoch": 15.36,
-      "eval_loss": 0.48737889528274536,
-      "eval_runtime": 85.0733,
-      "eval_samples_per_second": 23.509,
-      "eval_wer": 0.2623382202889211,
-      "step": 9600
-    },
-    {
-      "epoch": 15.52,
-      "learning_rate": 0.0001483606557377049,
-      "loss": 0.0522,
-      "step": 9700
-    },
-    {
-      "epoch": 15.68,
-      "learning_rate": 0.00014672131147540983,
-      "loss": 0.0528,
-      "step": 9800
-    },
-    {
-      "epoch": 15.68,
-      "eval_loss": 0.47928667068481445,
-      "eval_runtime": 84.0501,
-      "eval_samples_per_second": 23.795,
-      "eval_wer": 0.26206970624563664,
-      "step": 9800
-    },
-    {
-      "epoch": 15.84,
-      "learning_rate": 0.00014508196721311472,
-      "loss": 0.0503,
-      "step": 9900
-    },
-    {
-      "epoch": 16.0,
-      "learning_rate": 0.00014344262295081964,
-      "loss": 0.0507,
-      "step": 10000
-    },
-    {
-      "epoch": 16.0,
-      "eval_loss": 0.46980950236320496,
-      "eval_runtime": 82.8709,
-      "eval_samples_per_second": 24.134,
-      "eval_wer": 0.24944954621126686,
-      "step": 10000
     }
   ],
-  "max_steps": 18750,
-  "num_train_epochs": 30,
-  "total_flos": 7.756303740936756e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.24131617493199414,
+  "best_model_checkpoint": "/workspace/output_models/hi-mr/wav2vec2-large-xlsr-hindi-marathi-3/checkpoint-2800",
+  "epoch": 4.444444444444445,
+  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.16,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 1.1154,
       "step": 100
     },
     {
       "epoch": 0.32,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.252,
       "step": 200
     },
     {
       "epoch": 0.32,
+      "eval_loss": 0.49659740924835205,
+      "eval_runtime": 153.7026,
+      "eval_samples_per_second": 26.851,
+      "eval_wer": 0.27688847039129527,
       "step": 200
     },
     {
       "epoch": 0.48,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.1238,
       "step": 300
     },
     {
+      "epoch": 0.63,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0989,
       "step": 400
     },
     {
+      "epoch": 0.63,
+      "eval_loss": 0.49464675784111023,
+      "eval_runtime": 152.2596,
+      "eval_samples_per_second": 27.105,
+      "eval_wer": 0.25449884913161747,
       "step": 400
     },
     {
+      "epoch": 0.79,
+      "learning_rate": 2.9743589743589744e-05,
+      "loss": 0.0872,
       "step": 500
     },
     {
+      "epoch": 0.95,
+      "learning_rate": 2.923076923076923e-05,
+      "loss": 0.0882,
       "step": 600
     },
     {
+      "epoch": 0.95,
+      "eval_loss": 0.48914414644241333,
+      "eval_runtime": 153.1646,
+      "eval_samples_per_second": 26.945,
+      "eval_wer": 0.24939840970914418,
       "step": 600
     },
     {
+      "epoch": 1.11,
+      "learning_rate": 2.871794871794872e-05,
+      "loss": 0.0801,
       "step": 700
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 2.8205128205128207e-05,
+      "loss": 0.0769,
       "step": 800
     },
     {
+      "epoch": 1.27,
+      "eval_loss": 0.4904399812221527,
+      "eval_runtime": 151.6576,
+      "eval_samples_per_second": 27.213,
+      "eval_wer": 0.24746285833856455,
       "step": 800
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 2.7692307692307694e-05,
+      "loss": 0.0755,
       "step": 900
     },
     {
+      "epoch": 1.59,
+      "learning_rate": 2.717948717948718e-05,
+      "loss": 0.0682,
       "step": 1000
     },
     {
+      "epoch": 1.59,
+      "eval_loss": 0.49137312173843384,
+      "eval_runtime": 150.2065,
+      "eval_samples_per_second": 27.476,
+      "eval_wer": 0.24620736555764805,
       "step": 1000
     },
     {
+      "epoch": 1.75,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0664,
       "step": 1100
     },
     {
+      "epoch": 1.9,
+      "learning_rate": 2.6153846153846157e-05,
+      "loss": 0.0669,
       "step": 1200
     },
     {
+      "epoch": 1.9,
+      "eval_loss": 0.4783032238483429,
+      "eval_runtime": 152.2438,
+      "eval_samples_per_second": 27.108,
+      "eval_wer": 0.24448106298388783,
       "step": 1200
     },
     {
+      "epoch": 2.06,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.0681,
       "step": 1300
     },
     {
+      "epoch": 2.22,
+      "learning_rate": 2.512820512820513e-05,
+      "loss": 0.062,
       "step": 1400
     },
     {
+      "epoch": 2.22,
+      "eval_loss": 0.492949515581131,
+      "eval_runtime": 151.7551,
+      "eval_samples_per_second": 27.195,
+      "eval_wer": 0.24312094580456162,
       "step": 1400
     },
     {
+      "epoch": 2.38,
+      "learning_rate": 2.4615384615384616e-05,
+      "loss": 0.0603,
       "step": 1500
     },
     {
+      "epoch": 2.54,
+      "learning_rate": 2.4102564102564103e-05,
+      "loss": 0.0627,
       "step": 1600
     },
     {
+      "epoch": 2.54,
+      "eval_loss": 0.48576003313064575,
+      "eval_runtime": 151.5396,
+      "eval_samples_per_second": 27.234,
+      "eval_wer": 0.24445490688428542,
       "step": 1600
     },
     {
+      "epoch": 2.7,
+      "learning_rate": 2.358974358974359e-05,
+      "loss": 0.0601,
       "step": 1700
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 2.307692307692308e-05,
+      "loss": 0.0569,
       "step": 1800
     },
     {
+      "epoch": 2.86,
+      "eval_loss": 0.4850601851940155,
+      "eval_runtime": 152.3874,
+      "eval_samples_per_second": 27.082,
+      "eval_wer": 0.24267629211132036,
       "step": 1800
     },
     {
+      "epoch": 3.02,
+      "learning_rate": 2.2564102564102566e-05,
+      "loss": 0.0526,
       "step": 1900
     },
     {
+      "epoch": 3.17,
+      "learning_rate": 2.2051282051282052e-05,
+      "loss": 0.0439,
       "step": 2000
     },
     {
+      "epoch": 3.17,
+      "eval_loss": 0.47941696643829346,
+      "eval_runtime": 152.2838,
+      "eval_samples_per_second": 27.101,
+      "eval_wer": 0.2431994141033689,
       "step": 2000
     },
     {
+      "epoch": 3.33,
+      "learning_rate": 2.153846153846154e-05,
+      "loss": 0.0486,
       "step": 2100
     },
     {
+      "epoch": 3.49,
+      "learning_rate": 2.1025641025641025e-05,
+      "loss": 0.0437,
       "step": 2200
     },
     {
+      "epoch": 3.49,
+      "eval_loss": 0.481067955493927,
+      "eval_runtime": 151.9904,
+      "eval_samples_per_second": 27.153,
+      "eval_wer": 0.2431994141033689,
       "step": 2200
     },
     {
+      "epoch": 3.65,
+      "learning_rate": 2.0512820512820515e-05,
+      "loss": 0.0384,
       "step": 2300
     },
     {
+      "epoch": 3.81,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 0.0415,
       "step": 2400
     },
     {
+      "epoch": 3.81,
+      "eval_loss": 0.4836219847202301,
+      "eval_runtime": 152.3729,
+      "eval_samples_per_second": 27.085,
+      "eval_wer": 0.24212701401966938,
       "step": 2400
     },
     {
+      "epoch": 3.97,
+      "learning_rate": 1.9487179487179488e-05,
+      "loss": 0.0398,
       "step": 2500
     },
     {
+      "epoch": 4.13,
+      "learning_rate": 1.8974358974358975e-05,
+      "loss": 0.0399,
       "step": 2600
     },
     {
+      "epoch": 4.13,
+      "eval_loss": 0.48345065116882324,
+      "eval_runtime": 151.6188,
+      "eval_samples_per_second": 27.22,
+      "eval_wer": 0.24170851642603056,
       "step": 2600
     },
     {
+      "epoch": 4.29,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.0367,
       "step": 2700
     },
     {
+      "epoch": 4.44,
+      "learning_rate": 1.7948717948717948e-05,
+      "loss": 0.0361,
       "step": 2800
     },
     {
+      "epoch": 4.44,
+      "eval_loss": 0.4902171790599823,
+      "eval_runtime": 152.2588,
+      "eval_samples_per_second": 27.105,
+      "eval_wer": 0.24131617493199414,
       "step": 2800
     }
   ],
+  "max_steps": 6300,
+  "num_train_epochs": 10,
+  "total_flos": 2.1761689418766148e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9f1cf07032e95b729864528346e3e38cb097599f2b03403cc89e7a553263ec2
 size 2351

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4e43089cce3509942d599d030fda34b6b77b40e5839002693f8638c39f46025
 size 2351