ctoraman
/

RoBERTa-TR-medium-char

Inference Endpoints

Model card Files Files and versions Community

ctoraman commited on Mar 9, 2022

Commit

9148154

·

1 Parent(s): cf983c2

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -8,12 +8,12 @@ datasets:
 - oscar
 ---
-# RoBERTa Turkish medium Character-level 16k (uncased)
 Pretrained model on Turkish language using a masked language modeling (MLM) objective. The model is uncased.
 The pretrained corpus is OSCAR's Turkish split, but it is further filtered and cleaned.
-Model architecture is similar to bert-medium (8 layers, 8 heads, and 512 hidden size). Tokenization algorithm is Character-level, which means that text is split by individual characters. Vocabulary size is 16.7k.
 ## Note that this model does not include a tokenizer file, because it uses ByT5Tokenizer. The following code can be used for model loading and tokenization, example max length(1024) can be changed:
 ```

 - oscar
 ---
+# RoBERTa Turkish medium Character-level (uncased)
 Pretrained model on Turkish language using a masked language modeling (MLM) objective. The model is uncased.
 The pretrained corpus is OSCAR's Turkish split, but it is further filtered and cleaned.
+Model architecture is similar to bert-medium (8 layers, 8 heads, and 512 hidden size). Tokenization algorithm is Character-level, which means that text is split by individual characters. Vocabulary size is 384.
 ## Note that this model does not include a tokenizer file, because it uses ByT5Tokenizer. The following code can be used for model loading and tokenization, example max length(1024) can be changed:
 ```