Bingsu
/

ko_BBPE_tokenizer_roberta

Model card Files Files and versions Community

Bingsu commited on Aug 20, 2022

Commit

685373c

•

1 Parent(s): 94e5bbc

Update README.md

Files changed (1) hide show

README.md +29 -2

README.md CHANGED Viewed

@@ -46,13 +46,40 @@ tokenizer.save("my_tokenizer.json")
 약 7시간 소모 (i5-12600 non-k)
 ![image](https://i.imgur.com/LNNbtGH.png)
 ## 사용법
 #### 1.
 ```python
-from transformers import AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
 # tokenizer는 RobertaTokenizerFast 클래스가 됩니다.

 약 7시간 소모 (i5-12600 non-k)
 ![image](https://i.imgur.com/LNNbtGH.png)
+이후 토크나이저의 post-processor를 RobertaProcessing으로 교체합니다.
+```python
+from tokenizers import Tokenizer
+from tokenizers.processors import RobertaProcessing
+tokenizer = Tokenizer.from_file("my_tokenizer.json")
+tokenizer.post_processor = RobertaProcessing(
+    ("</s>", tokenizer.token_to_id("</s>")),
+    ("<s>", tokenizer.token_to_id("<s>")),
+    add_prefix_space=False,
+)
+tokenizer.save("my_tokenizer2.json")
+```
+`add_prefix_space=False`옵션은 [roberta-base](https://huggingface.co/roberta-base)를 그대로 따라하기 위한 것입니다.
+그리고 `model_max_length` 설정을 해주었습니다.
+```python
+from transformers import RobertaTokenizerFast
+rt = RobertaTokenizerFast(tokenizer_file="tokenizer.json")
+rt.save_pretrained("./my_roberta_tokenizer")
+```
+저장된 폴더의 `tokenizer_config.json` 파일에 `"model_max_length": 512,`를 추가.
 ## 사용법
 #### 1.
 ```python
 tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
 # tokenizer는 RobertaTokenizerFast 클래스가 됩니다.