---
library_name: transformers
language:
- ko
base_model:
- openai/whisper-base
---

### Model Description

OpenAI의 whisper-base 모델을 아래 데이터셋으로 학습한 모델입니다.
- 한국어 음성 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123)
- 주소 음성 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71556)
- 주요 영역별 회의 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=464)
- 저음질 전화망 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=571)
- 방송 콘텐츠 대화체 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?dataSetSn=463)

Training setup

```
train_steps: 50000
warmup_steps: 500
lr scheduler: linear warmup cosine decay
max learning rate: 1e-4
batch size: 1024
max_grad_norm: 1.0
adamw_beta1: 0.9
adamw_beta2: 0.98
adamw_eps: 1e-6
```

### Evaluation

https://github.com/rtzr/Awesome-Korean-Speech-Recognition

위 레포지토리에서 주요 영역별 회의 음성을 제외한 테스트셋 결과입니다. 아래 테이블에서 whisper_base_komixv2가 본 모델 성능입니다.


|         Model          | Average | cv_15_ko | fleurs_ko | kcall_testset | kconf_test | kcounsel_test | klec_testset | kspon_clean | kspon_other |
|------------------------|---------|----------|-----------|---------------|------------|---------------|--------------|-------------|-------------|
|      whisper_tiny      |  36.63  |  31.03   |   18.48   |     58.57     |   36.02    |     33.52     |    35.74     |    42.22    |    37.42    |
|      whisper_base      |  40.61  |  22.45   |    15.7   |     85.94     |   41.95    |     32.38     |    39.24     |    46.92    |    40.29    |
|     whisper_small      |  17.52  |  11.56   |    6.33   |     30.79     |   18.96    |     13.57     |    18.71     |    22.02    |    18.23    |
|     whisper_medium     |  13.92  |   8.2    |    4.38   |     25.73     |   15.66    |      10.1     |     14.9     |    17.16    |    15.22    |
|     whisper_large      |  12.77  |   6.83   |    3.9    |     22.68     |   14.35    |      9.2      |    13.89     |    16.78    |    14.56    |
|    whisper_large_v2    |  12.29  |   6.58   |    3.74   |     22.26     |   13.88    |      8.95     |    13.84     |    15.51    |     13.6    |
|    whisper_large_v3    |   7.99  |   5.11   |    3.72   |      5.45     |    9.35    |      3.83     |     8.46     |    15.08    |    12.89    |
| whisper_large_v3_turbo |  10.75  |   5.38   |    3.99   |     10.93     |   10.27    |      4.21     |     9.42     |    26.66    |    15.16    |
|  whisper_base_komixv2  |   8.73  |  10.27   |    5.14   |      6.23     |   10.86    |      7.01     |    10.38     |     9.98    |     9.99    |
| whisper_small_komixv2  |   7.63  |   7.2    |    4.63   |      5.47     |    9.79    |      6.16     |     8.68     |     9.65    |     9.44    |


### Acknowledgement
- 본 모델은 구글의 TRC 프로그램의 지원으로 학습했습니다.
- Research supported with Cloud TPUs from Google's TPU Research Cloud (TRC)