Bingsu commited on
Commit
685373c
1 Parent(s): 94e5bbc

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -2
README.md CHANGED
@@ -46,13 +46,40 @@ tokenizer.save("my_tokenizer.json")
46
  약 7시간 소모 (i5-12600 non-k)
47
  ![image](https://i.imgur.com/LNNbtGH.png)
48
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
49
  ## 사용법
50
 
51
  #### 1.
52
 
53
  ```python
54
- from transformers import AutoTokenizer
55
-
56
  tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
57
 
58
  # tokenizer는 RobertaTokenizerFast 클래스가 됩니다.
 
46
  약 7시간 소모 (i5-12600 non-k)
47
  ![image](https://i.imgur.com/LNNbtGH.png)
48
 
49
+
50
+ 이후 토크나이저의 post-processor를 RobertaProcessing으로 교체합니다.
51
+
52
+ ```python
53
+ from tokenizers import Tokenizer
54
+ from tokenizers.processors import RobertaProcessing
55
+
56
+ tokenizer = Tokenizer.from_file("my_tokenizer.json")
57
+ tokenizer.post_processor = RobertaProcessing(
58
+ ("</s>", tokenizer.token_to_id("</s>")),
59
+ ("<s>", tokenizer.token_to_id("<s>")),
60
+ add_prefix_space=False,
61
+ )
62
+
63
+ tokenizer.save("my_tokenizer2.json")
64
+ ```
65
+ `add_prefix_space=False`옵션은 [roberta-base](https://huggingface.co/roberta-base)를 그대로 따라하기 위한 것입니다.
66
+
67
+ 그리고 `model_max_length` 설정을 해주었습니다.
68
+
69
+ ```python
70
+ from transformers import RobertaTokenizerFast
71
+
72
+ rt = RobertaTokenizerFast(tokenizer_file="tokenizer.json")
73
+ rt.save_pretrained("./my_roberta_tokenizer")
74
+ ```
75
+ 저장된 폴더의 `tokenizer_config.json` 파일에 `"model_max_length": 512,`를 추가.
76
+
77
+
78
  ## 사용법
79
 
80
  #### 1.
81
 
82
  ```python
 
 
83
  tokenizer = AutoTokenizer.from_pretrained("Bingsu/BBPE_tokenizer_test")
84
 
85
  # tokenizer는 RobertaTokenizerFast 클래스가 됩니다.