Training in progress, step 500

Files changed (9) hide show

.gitignore CHANGED Viewed

@@ -1,3 +1,4 @@
 checkpoint-*/
 nohup.out
 .venv/

 checkpoint-*/
 nohup.out
 .venv/
+wandb/

config.json CHANGED Viewed

@@ -35,7 +35,7 @@
   "pad_token_id": 50257,
   "scale_embedding": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.26.0.dev0",
   "use_cache": false,
   "vocab_size": 51865
 }

   "pad_token_id": 50257,
   "scale_embedding": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.26.0",
   "use_cache": false,
   "vocab_size": 51865
 }

merges.txt CHANGED Viewed

@@ -1,4 +1,5 @@
 #version: 0.2
 Ġ a
 Ġt h
 i n

 #version: 0.2
+Ġ t
 Ġ a
 Ġt h
 i n

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b1ff010d6786cde899f8f8a3fca4dd5a11855df5bee8d7926f0a56ad6cfff49
-size 3055754841

 version https://git-lfs.github.com/spec/v1
+oid sha256:599c99286b519fadb5bbe0f6646b50209f593eb7a153a19220d8b3f89d46f23f
+size 3055755286

run.sh CHANGED Viewed

@@ -1,11 +1,12 @@
-python run_speech_recognition_seq2seq_streaming.py \
 	--model_name_or_path="openai/whisper-medium" \
-	--dataset_name="mozilla-foundation/common_voice_16_0" \
 	--dataset_config_name="eu" \
 	--language="basque" \
 	--train_split_name="train+validation" \
 	--eval_split_name="test" \
-	--model_index_name="Whisper Small Basque" \
 	--max_steps="8000" \
 	--output_dir="./" \
 	--per_device_train_batch_size="4" \
@@ -35,5 +36,6 @@ python run_speech_recognition_seq2seq_streaming.py \
 	--predict_with_generate \
 	--do_normalize_eval \
 	--streaming \
-	--use_auth_token \
-	--push_to_hub

+WANDB_PROJECT=whisper-medium-eu \
+	python run_speech_recognition_seq2seq_streaming.py \
 	--model_name_or_path="openai/whisper-medium" \
+	--dataset_name="mozilla-foundation/common_voice_17_0" \
 	--dataset_config_name="eu" \
 	--language="basque" \
 	--train_split_name="train+validation" \
 	--eval_split_name="test" \
+	--model_index_name="Whisper Medium Basque" \
 	--max_steps="8000" \
 	--output_dir="./" \
 	--per_device_train_batch_size="4" \
 	--predict_with_generate \
 	--do_normalize_eval \
 	--streaming \
+	--push_to_hub \
+	--report_to "wandb" \
+	--run_name "whisper-medium-eu"

special_tokens_map.json CHANGED Viewed

@@ -111,22 +111,28 @@
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": true,
     "rstrip": false,
     "single_word": false
   }

   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": false,
     "rstrip": false,
     "single_word": false
   }

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8e9e15ffccfaaf4d559de6137ba0f5621acb1fd54cf075e1a15b20e3ec814ed
-size 3643

 version https://git-lfs.github.com/spec/v1
+oid sha256:1673d568bf0b0080cbabe15292938f618760ad94bb79a88f657ec45344a354b5
+size 4024