File size: 7,555 Bytes
65da9c9 964223a 23880bf a6e1fe1 23880bf 65da9c9 1504790 65da9c9 964223a 65da9c9 964223a 65da9c9 964223a fa738ce 964223a bea716a e7a7dce bea716a e7a7dce bea716a 964223a a20f5eb 65da9c9 6587a8a a20f5eb |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 |
---
library_name: transformers
license: apache-2.0
language:
- en
- ko
pipeline_tag: translation
tags:
- finetuned
inference: true
widget:
- messages:
- role: user
content: 다음 문장을 한글로 번역하세요. Iris is a model for Korean-English sentence translation based on deep learning.
---
# iris
![image/jpeg](https://cdn-uploads.huggingface.co/production/uploads/64241c3d774cc340797429fc/3had0ckV_asjoJB9fKKKy.jpeg)
Iris is a model for Korean-English sentence translation based on deep learning.
It is used to translate Korean sentences into English or English sentences into Korean by utilizing advanced natural language processing technology.
The model is trained to understand the grammar, vocabulary, and context of each language and generate appropriate translations.
Iris provides efficient and accurate translation and can be used in a variety of applications.
## Model Details
* **Model Developers** : davidkim(changyeon kim)
* **Repository** : will be updated soon.
* **base mode** : mistralai/Mistral-7B-v0.2
* **dataset** : translation_v3_346k
## usage
```
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "davidkim205/iris-7b"
model = AutoModelForCausalLM.from_pretrained(repo, torch_dtype=torch.bfloat16, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(repo)
def generate(prompt):
encoding = tokenizer(
prompt,
return_tensors='pt',
return_token_type_ids=False
).to("cuda")
gen_tokens = model.generate(
**encoding,
max_new_tokens=2048,
temperature=1.0,
num_beams=5,
)
prompt_end_size = encoding.input_ids.shape[1]
result = tokenizer.decode(gen_tokens[0, prompt_end_size:])
return result
def translate_ko2en(text):
prompt = f"[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]"
return generate(prompt)
def translate_en2ko(text):
prompt = f"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
return generate(prompt)
def main():
while True:
text = input('>')
en_text = translate_ko2en(text)
ko_text = translate_en2ko(en_text)
print('en_text', en_text)
print('ko_text', ko_text)
if __name__ == "__main__":
main()
```
output
```
$ python iris_test.py
Downloading shards: 100%|█████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 4.72it/s]
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████| 3/3 [00:02<00:00, 1.07it/s]
>아이리스는 딥러닝을 기반으로 한 한-영어 문장 번역을 위한 모델이다.
en_text Iris is a model for Korean-to-English sentence translation based on deep learning.</s>
ko_text 아이리스는 딥러닝을 기반으로 한 한국어-영어 문장 번역을 위한 모델이다.</s>
```
## template
### ko -> en
```
[INST] 다음 문장을 영어로 번역하세요.{text} [/INST]
```
### en -> ko
```
"[INST] 다음 문장을 한글로 번역하세요.{text} [/INST]"
```
## dataset info : translation_v3_346k
The dataset is not made public due to licensing issues.
| src | ratio | description |
| ------------------------------------------ | ----- | ------------------------------------------------------------ |
| aihub-MTPE | 5.56% | 기계번역 품질 사후검증 데이터셋 |
| aihub-techsci2 | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
| aihub-expertise | 5.56% | 의료, 금융, 스포츠 등 전문분야 한영 번역 데이터셋 |
| aihub-humanities | 5.56% | 인문학 분야 한영 번역 데이터셋 |
| sharegpt-deepl-ko-translation | 5.56% | shareGPT 데이터셋을 질답 형식에서 한영 번역 형식으로 변환한 데이터셋 |
| aihub-MT-new-corpus | 5.56% | 기계 번역 앱 구축용 한영 번역 데이터셋 |
| aihub-socialsci | 5.56% | 법률, 교육, 경제 등 사회과학 분야 한영 번역 데이터셋 |
| korean-parallel-corpora | 5.56% | 한영 번역 병렬 데이터셋 |
| aihub-parallel-translation | 5.56% | 발화 유형 및 분야별 한영 번역 데이터셋 |
| aihub-food | 5.56% | 식품 분야 영한 번역 데이터셋 |
| aihub-techsci | 5.56% | ICT, 전기/전자 등 기술과학 분야 한영 번역 데이터셋 |
| para_pat | 5.56% | ParaPat 데이터셋의 영어-한국어 subset |
| aihub-speechtype-based-machine-translation | 5.56% | 발화 유형별 영한 번역 데이터셋 |
| koopus100 | 5.56% | OPUS-100 데이터셋의 영어-한국어 subset |
| aihub-basicsci | 5.56% | 수학, 물리학 등 기초과학 분야 한영 번역 데이터셋 |
| aihub-broadcast-content | 5.56% | 방송 콘텐츠 분야 한영 번역 데이터셋 |
| aihub-patent | 5.56% | 특허명세서 영한 번역 데이터셋 |
| aihub-colloquial | 5.56% | 신조어, 약어 등을 포함하는 구어체 한영 번역 데이터셋 |
Please refer to the url below for information on aihub licensing.
https://aihub.or.kr/partcptnmlrd/inqry/view.do?currMenu=144&topMenu=104
## Evaluation
https://github.com/davidkim205/translation
| TYPE | Model | BLEU | SBLEU | Duplicate | Length Exceeds |
| ----------- | :---------------------------------- | ---- | ----- | --------- | -------------- |
| HuggingFace | facebook/nllb-200-distilled-1.3B | 0.26 | 0.30 | 1 | 3 |
| HuggingFace | jbochi/madlad400-10b-mt | 0.29 | 0.38 | 3 | 6 |
| HuggingFace | Unbabel/TowerInstruct-7B-v0.1 | 0.32 | 0.39 | 1 | 9 |
| HuggingFace | squarelike/Gugugo-koen-7B-V1.1 | 0.32 | 0.36 | 1 | 3 |
| HuggingFace | maywell/Synatra-7B-v0.3-Translation | 0.35 | 0.41 | 1 | 2 |
| Cloud | deepl | 0.39 | 0.45 | 0 | 1 |
| Cloud | azure | 0.40 | 0.49 | 0 | 3 |
| Cloud | google | 0.40 | 0.49 | 0 | 2 |
| Cloud | papago | 0.43 | 0.51 | 0 | 3 |
| HuggingFace | davidkim205/iris-7b (**ours**) | 0.40 | 0.43 | 0 | 3 | |