kotoba-tech
/

kotoba-whisper-v1.0

@@ -124,7 +124,7 @@ class to transcribe short-form audio files (< 30-seconds) as follows:
 ```python
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
-from datasets import load_dataset
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
@@ -145,8 +145,9 @@ pipe = pipeline(
     device=device,
 )
-# load sample audio
-dataset = load_dataset("japanese-asr/ja_asr.common_voice_8_0", split="test")
 sample = dataset[0]["audio"]
 # run inference
@@ -154,7 +155,7 @@ result = pipe(sample)
 print(result["text"])
 ```
-- To transcribe a local audio file, simply pass the path to your audio file when you call the pipeline:
 ```diff
 - result = pipe(sample)
 + result = pipe("audio.mp3")
@@ -205,7 +206,8 @@ pipe = pipeline(
 )
 # load sample audio (concatenate instances to creaete a long audio)
-dataset = load_dataset("japanese-asr/ja_asr.common_voice_8_0", split="test")
 sample = {"array": np.concatenate([i["array"] for i in dataset[:20]["audio"]]), "sampling_rate": dataset[0]['audio']['sampling_rate'], "path": "tmp"}
 # run inference
@@ -247,7 +249,8 @@ pipe = pipeline(
 )
 # load sample audio (concatenate instances to creaete a long audio)
-dataset = load_dataset("japanese-asr/ja_asr.common_voice_8_0", split="test")
 sample = {"array": np.concatenate([i["array"] for i in dataset[:20]["audio"]]), "sampling_rate": dataset[0]['audio']['sampling_rate'], "path": "tmp"}
 # run inference
@@ -318,14 +321,14 @@ Evaluation can then be run end-to-end with the following example:
 ```python
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
-from datasets import load_dataset, features
 from evaluate import load
 import torch
 from tqdm import tqdm
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
-dataset_name = "japanese-asr/ja_asr.common_voice_8_0"
 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 audio_column = 'audio'
@@ -339,8 +342,7 @@ processor = AutoProcessor.from_pretrained(model_id)
 # load the dataset and sample the audio with 16kHz
 dataset = load_dataset(dataset_name, split="test")
-dataset = dataset.cast_column(audio_column, features.Audio(sampling_rate=processor.feature_extractor.sampling_rate))
-dataset = dataset.select([0, 1, 2, 3, 4, 5, 6])
 # preprocess and batch the dataset
@@ -379,7 +381,7 @@ The huggingface links to the major Japanese ASR datasets for evaluation are summ
 For example, to evaluate the model on JSUT Basic5000, change the `dataset_name`:
 ```diff
-- dataset_name = "japanese-asr/ja_asr.common_voice_8_0"
 + dataset_name = "japanese-asr/ja_asr.jsut_basic5000"
 ```

 ```python
 import torch
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+from datasets import load_dataset, Audio
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
     device=device,
 )
+# load sample audio & downsample to 16kHz
+dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
+dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 sample = dataset[0]["audio"]
 # run inference
 print(result["text"])
 ```
+- To transcribe a local audio file, simply pass the path to your audio file when you call the pipeline (make sure the audio is sampled in 16kHz):
 ```diff
 - result = pipe(sample)
 + result = pipe("audio.mp3")
 )
 # load sample audio (concatenate instances to creaete a long audio)
+dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
+dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 sample = {"array": np.concatenate([i["array"] for i in dataset[:20]["audio"]]), "sampling_rate": dataset[0]['audio']['sampling_rate'], "path": "tmp"}
 # run inference
 )
 # load sample audio (concatenate instances to creaete a long audio)
+dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
+dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 sample = {"array": np.concatenate([i["array"] for i in dataset[:20]["audio"]]), "sampling_rate": dataset[0]['audio']['sampling_rate'], "path": "tmp"}
 # run inference
 ```python
 from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
+from datasets import load_dataset, Audio
 from evaluate import load
 import torch
 from tqdm import tqdm
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
+dataset_name = "japanese-asr/ja_asr.reazonspeech_test"
 torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 audio_column = 'audio'
 # load the dataset and sample the audio with 16kHz
 dataset = load_dataset(dataset_name, split="test")
+dataset = dataset.cast_column(audio_column, Audio(sampling_rate=processor.feature_extractor.sampling_rate))
 # preprocess and batch the dataset
 For example, to evaluate the model on JSUT Basic5000, change the `dataset_name`:
 ```diff
+- dataset_name = "japanese-asr/ja_asr.reazonspeech_test"
 + dataset_name = "japanese-asr/ja_asr.jsut_basic5000"
 ```