kotoba-tech
/

kotoba-whisper-v1.0

@@ -109,12 +109,11 @@ it inherits the benefit of the improved latency compared to [openai/whisper-larg
 ## Transformers Usage
 Kotoba-Whisper is supported in the Hugging Face 🤗 Transformers library from version 4.39 onwards. To run the model, first
-install the latest version of Transformers. For this example, we'll also install 🤗 Datasets to load a toy audio dataset
-from the Hugging Face Hub:
 ```bash
 pip install --upgrade pip
-pip install --upgrade transformers accelerate datasets[audio]
 ```
 ### Short-Form Transcription
@@ -124,7 +123,7 @@ class to transcribe short-form audio files (< 30-seconds) as follows:
 ```python
 import torch
 from transformers import pipeline
-from datasets import load_dataset, Audio
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
@@ -142,7 +141,7 @@ pipe = pipeline(
     model_kwargs=model_kwargs
 )
-# load sample audio & downsample to 16kHz
 dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
 sample = dataset[0]["audio"]
@@ -222,7 +221,7 @@ Kotoba-whisper can generate transcription with prompting as below:
 import re
 import torch
 from transformers import pipeline
-from datasets import load_dataset, Audio
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
@@ -240,7 +239,7 @@ pipe = pipeline(
     model_kwargs=model_kwargs
 )
-# load sample audio & downsample to 16kHz
 dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
 # --- Without prompt ---
@@ -297,11 +296,9 @@ pip install --upgrade transformers datasets[audio] evaluate jiwer
 Evaluation can then be run end-to-end with the following example:
 ```python
-from tqdm import tqdm
 import torch
 from transformers import pipeline
-from datasets import load_dataset, Audio
 from evaluate import load
 # model config
@@ -312,7 +309,6 @@ model_kwargs = {"attn_implementation": "sdpa"} if torch.cuda.is_available() else
 generate_kwargs = {"language": "japanese", "task": "transcribe"}
 # data config
-generate_kwargs = {"language": "japanese", "task": "transcribe"}
 dataset_name = "japanese-asr/ja_asr.reazonspeech_test"
 audio_column = 'audio'
 text_column = 'transcription'

 ## Transformers Usage
 Kotoba-Whisper is supported in the Hugging Face 🤗 Transformers library from version 4.39 onwards. To run the model, first
+install the latest version of Transformers.
 ```bash
 pip install --upgrade pip
+pip install --upgrade transformers accelerate
 ```
 ### Short-Form Transcription
 ```python
 import torch
 from transformers import pipeline
+from datasets import load_dataset
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
     model_kwargs=model_kwargs
 )
+# load sample audio
 dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
 sample = dataset[0]["audio"]
 import re
 import torch
 from transformers import pipeline
+from datasets import load_dataset
 # config
 model_id = "kotoba-tech/kotoba-whisper-v1.0"
     model_kwargs=model_kwargs
 )
+# load sample audio
 dataset = load_dataset("japanese-asr/ja_asr.reazonspeech_test", split="test")
 # --- Without prompt ---
 Evaluation can then be run end-to-end with the following example:
 ```python
 import torch
 from transformers import pipeline
+from datasets import load_dataset
 from evaluate import load
 # model config
 generate_kwargs = {"language": "japanese", "task": "transcribe"}
 # data config
 dataset_name = "japanese-asr/ja_asr.reazonspeech_test"
 audio_column = 'audio'
 text_column = 'transcription'