Commit
•
9c20e00
1
Parent(s):
e97ab07
Update: 모델 내용
Browse files
README.md
CHANGED
@@ -58,15 +58,15 @@ model-index:
|
|
58 |
BartForConditionalGeneration Fine-Tuning Model For Number To Korean <br />
|
59 |
BartForConditionalGeneration으로 파인튜닝한, 숫자를 한글로 변환하는 Task 입니다. <br />
|
60 |
|
61 |
-
Dataset use [Korea aihub](https://aihub.or.kr/aihubdata/data/list.do?currMenu=115&topMenu=100&srchDataRealmCode=REALM002&srchDataTy=DATA004) <br />
|
62 |
I can't open my fine-tuning datasets for my private issue <br />
|
63 |
데이터셋은 Korea aihub에서 받아서 사용하였으며, 파인튜닝에 사용된 모든 데이터를 사정상 공개해드릴 수는 없습니다. <br />
|
64 |
|
65 |
-
Korea aihub data is ONLY permit to Korean!!!!!!! <br />
|
66 |
aihub에서 데이터를 받으실 분은 한국인일 것이므로, 한글로만 작성합니다. <br />
|
67 |
정확히는 음성전사를 철자전사로 번역하는 형태로 학습된 모델입니다. (ETRI 전사기준) <br />
|
68 |
|
69 |
-
In case, ten million, some people use 10 million or some people use 10000000, so this model is crucial for training datasets
|
70 |
천만을 1000만 혹은 10000000으로 쓸 수도 있기에, Training Datasets에 따라 결과는 상이할 수 있습니다. <br />
|
71 |
- **Developed by:** Yoo SungHyun(https://github.com/YooSungHyun)
|
72 |
- **Language(s):** Korean
|
@@ -76,9 +76,10 @@ In case, ten million, some people use 10 million or some people use 10000000, so
|
|
76 |
|
77 |
## Uses
|
78 |
This Model is inferenced token BACKWARD. so, you have to `flip` before `tokenizer.decode()`
|
79 |
-
해당 모델은 inference시 역순으로 예측합니다. (밥을 6시에 먹었어 -> 어 먹었 시에 여섯 을 밥)
|
|
|
80 |
|
81 |
-
Want see more detail follow this URL [KoGPT_num_converter](https://github.com/ddobokki/KoGPT_num_converter) and see `bart_inference.py` and `bart_train.py`
|
82 |
```python
|
83 |
class BartText2TextGenerationPipeline(Text2TextGenerationPipeline):
|
84 |
def postprocess(self, model_outputs, return_type=ReturnType.TEXT, clean_up_tokenization_spaces=False):
|
|
|
58 |
BartForConditionalGeneration Fine-Tuning Model For Number To Korean <br />
|
59 |
BartForConditionalGeneration으로 파인튜닝한, 숫자를 한글로 변환하는 Task 입니다. <br />
|
60 |
|
61 |
+
- Dataset use [Korea aihub](https://aihub.or.kr/aihubdata/data/list.do?currMenu=115&topMenu=100&srchDataRealmCode=REALM002&srchDataTy=DATA004) <br />
|
62 |
I can't open my fine-tuning datasets for my private issue <br />
|
63 |
데이터셋은 Korea aihub에서 받아서 사용하였으며, 파인튜닝에 사용된 모든 데이터를 사정상 공개해드릴 수는 없습니다. <br />
|
64 |
|
65 |
+
- Korea aihub data is ONLY permit to Korean!!!!!!! <br />
|
66 |
aihub에서 데이터를 받으실 분은 한국인일 것이므로, 한글로만 작성합니다. <br />
|
67 |
정확히는 음성전사를 철자전사로 번역하는 형태로 학습된 모델입니다. (ETRI 전사기준) <br />
|
68 |
|
69 |
+
- In case, ten million, some people use 10 million or some people use 10000000, so this model is crucial for training datasets
|
70 |
천만을 1000만 혹은 10000000으로 쓸 수도 있기에, Training Datasets에 따라 결과는 상이할 수 있습니다. <br />
|
71 |
- **Developed by:** Yoo SungHyun(https://github.com/YooSungHyun)
|
72 |
- **Language(s):** Korean
|
|
|
76 |
|
77 |
## Uses
|
78 |
This Model is inferenced token BACKWARD. so, you have to `flip` before `tokenizer.decode()`
|
79 |
+
해당 모델은 inference시 역순으로 예측합니다. (밥을 6시에 먹었어 -> 어 먹었 시에 여섯 을 밥) <br />
|
80 |
+
때문에 `tokenizer.decode`를 수행하기 전에, `flip`으로 역순으로 치환해주세요.
|
81 |
|
82 |
+
Want see more detail follow this URL [KoGPT_num_converter](https://github.com/ddobokki/KoGPT_num_converter) <br /> and see `bart_inference.py` and `bart_train.py`
|
83 |
```python
|
84 |
class BartText2TextGenerationPipeline(Text2TextGenerationPipeline):
|
85 |
def postprocess(self, model_outputs, return_type=ReturnType.TEXT, clean_up_tokenization_spaces=False):
|