Model with more data

Browse files

Files changed (4) hide show

eval.py +20 -5
language_model/attrs.json +1 -1
train.ipynb +0 -0
vocab.json +1 -1

eval.py CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/usr/bin/env python3
 from datasets import load_dataset, load_metric, Audio, Dataset
-from transformers import pipeline, AutoFeatureExtractor
 import re
 import argparse
 import unicodedata
@@ -106,18 +107,29 @@ def main(args):
     dataset = load_dataset(args.dataset, args.config, split=args.split, use_auth_token=True)
     # for testing: only process the first two examples as a test
-    # dataset = dataset.select(range(10))
-    # load processor
     feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
     sampling_rate = feature_extractor.sampling_rate
     # resample audio
     dataset = dataset.cast_column("audio", Audio(sampling_rate=sampling_rate))
-    # load eval pipeline
-    asr = pipeline("automatic-speech-recognition", model=args.model_id)
     # map function to decode audio
     def map_to_pred(batch):
         prediction = asr(batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s)
@@ -158,6 +170,9 @@ if __name__ == "__main__":
     parser.add_argument(
         "--log_outputs", action='store_true', help="If defined, write outputs to log file for analysis."
     )
     args = parser.parse_args()
     main(args)

 #!/usr/bin/env python3
 from datasets import load_dataset, load_metric, Audio, Dataset
+from transformers import pipeline, AutoFeatureExtractor, AutoTokenizer, Wav2Vec2ForCTC
+import os
 import re
 import argparse
 import unicodedata
     dataset = load_dataset(args.dataset, args.config, split=args.split, use_auth_token=True)
     # for testing: only process the first two examples as a test
+    if args.limit:
+        dataset = dataset.select(range(limit))
     feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
+    # load processor
     sampling_rate = feature_extractor.sampling_rate
     # resample audio
     dataset = dataset.cast_column("audio", Audio(sampling_rate=sampling_rate))
+    asr = None
+    if os.path.exists(args.model_id):
+        model = Wav2Vec2ForCTC.from_pretrained(args.model_id)
+        tokenizer = AutoTokenizer.from_pretrained(args.model_id)
+        # load eval pipeline
+        asr = pipeline("automatic-speech-recognition", model=model, tokenizer=tokenizer, feature_extractor=feature_extractor)
+    else:
+        asr = pipeline("automatic-speech-recognition", model=args.model_id)
     # map function to decode audio
     def map_to_pred(batch):
         prediction = asr(batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s)
     parser.add_argument(
         "--log_outputs", action='store_true', help="If defined, write outputs to log file for analysis."
     )
+    parser.add_argument(
+        "--limit", type=int, help="Not required. If greater than zero, select a subset of this size from the dataset.", default=0
+    )
     args = parser.parse_args()
     main(args)

language_model/attrs.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}


1	+ {"alpha": 0.9, "beta": 2.5, "unk_score_offset": -10.0, "score_boundary": true}

train.ipynb ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "q": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "á": 27, "é": 28, "í": 29, "ó": 30, "ú": 31, "ý": 32, "č": 33, "ď": 34, "ě": 35, "ň": 36, "ř": 37, "š": 38, "ť": 39, "ů": 40, "ž": 41, "|": 0, "[UNK]": 42, "[PAD]": 43}

+ {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5, "f": 6, "g": 7, "h": 8, "i": 9, "j": 10, "k": 11, "l": 12, "m": 13, "n": 14, "o": 15, "p": 16, "q": 17, "r": 18, "s": 19, "t": 20, "u": 21, "v": 22, "w": 23, "x": 24, "y": 25, "z": 26, "\u00e1": 27, "\u00e9": 28, "\u00ed": 29, "\u00f3": 30, "\u00fa": 31, "\u00fd": 32, "\u010d": 33, "\u010f": 34, "\u011b": 35, "\u0148": 36, "\u0159": 37, "\u0161": 38, "\u0165": 39, "\u016f": 40, "\u017e": 41, "|": 0, "[UNK]": 42, "[PAD]": 43}