Update README.md
Browse files
README.md
CHANGED
@@ -46,13 +46,40 @@ tokenizer.save("my_tokenizer.json")
|
|
46 |
약 7시간 소모 (i5-12600 non-k)
|
47 |
![image](https://i.imgur.com/LNNbtGH.png)
|
48 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
49 |
## 사용법
|
50 |
|
51 |
#### 1.
|
52 |
|
53 |
```python
|
54 |
-
from transformers import AutoTokenizer
|
55 |
-
|
56 |
tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
|
57 |
|
58 |
# tokenizer는 RobertaTokenizerFast 클래스가 됩니다.
|
|
|
46 |
약 7시간 소모 (i5-12600 non-k)
|
47 |
![image](https://i.imgur.com/LNNbtGH.png)
|
48 |
|
49 |
+
|
50 |
+
이후 토크나이저의 post-processor를 RobertaProcessing으로 교체합니다.
|
51 |
+
|
52 |
+
```python
|
53 |
+
from tokenizers import Tokenizer
|
54 |
+
from tokenizers.processors import RobertaProcessing
|
55 |
+
|
56 |
+
tokenizer = Tokenizer.from_file("my_tokenizer.json")
|
57 |
+
tokenizer.post_processor = RobertaProcessing(
|
58 |
+
("</s>", tokenizer.token_to_id("</s>")),
|
59 |
+
("<s>", tokenizer.token_to_id("<s>")),
|
60 |
+
add_prefix_space=False,
|
61 |
+
)
|
62 |
+
|
63 |
+
tokenizer.save("my_tokenizer2.json")
|
64 |
+
```
|
65 |
+
`add_prefix_space=False`옵션은 [roberta-base](https://huggingface.co/roberta-base)를 그대로 따라하기 위한 것입니다.
|
66 |
+
|
67 |
+
그리고 `model_max_length` 설정을 해주었습니다.
|
68 |
+
|
69 |
+
```python
|
70 |
+
from transformers import RobertaTokenizerFast
|
71 |
+
|
72 |
+
rt = RobertaTokenizerFast(tokenizer_file="tokenizer.json")
|
73 |
+
rt.save_pretrained("./my_roberta_tokenizer")
|
74 |
+
```
|
75 |
+
저장된 폴더의 `tokenizer_config.json` 파일에 `"model_max_length": 512,`를 추가.
|
76 |
+
|
77 |
+
|
78 |
## 사용법
|
79 |
|
80 |
#### 1.
|
81 |
|
82 |
```python
|
|
|
|
|
83 |
tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
|
84 |
|
85 |
# tokenizer는 RobertaTokenizerFast 클래스가 됩니다.
|