julien-c HF staff commited on
Commit
c742cf8
1 Parent(s): 6b2b6dd

Migrate model card from transformers-repo

Browse files

Read announcement at https://discuss.huggingface.co/t/announcement-all-model-cards-will-be-migrated-to-hf-co-model-repos/2755
Original file history: https://github.com/huggingface/transformers/commits/master/model_cards/cahya/gpt2-small-indonesian-522M/README.md

Files changed (1) hide show
  1. README.md +64 -0
README.md ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: "id"
3
+ license: "mit"
4
+ datasets:
5
+ - Indonesian Wikipedia
6
+ widget:
7
+ - text: "Pulau Dewata sering dikunjungi"
8
+ ---
9
+
10
+ # Indonesian GPT2 small model
11
+
12
+ ## Model description
13
+ It is GPT2-small model pre-trained with indonesian Wikipedia using a causal language modeling (CLM) objective. This
14
+ model is uncased: it does not make a difference between indonesia and Indonesia.
15
+
16
+ This is one of several other language models that have been pre-trained with indonesian datasets. More detail about
17
+ its usage on downstream tasks (text classification, text generation, etc) is available at [Transformer based Indonesian Language Models](https://github.com/cahya-wirawan/indonesian-language-models/tree/master/Transformers)
18
+
19
+ ## Intended uses & limitations
20
+
21
+ ### How to use
22
+ You can use this model directly with a pipeline for text generation. Since the generation relies on some randomness,
23
+ we set a seed for reproducibility:
24
+ ```python
25
+ >>> from transformers import pipeline, set_seed
26
+ >>> generator = pipeline('text-generation', model='cahya/gpt2-small-indonesian-522M')
27
+ >>> set_seed(42)
28
+ >>> generator("Kerajaan Majapahit adalah", max_length=30, num_return_sequences=5, num_beams=10)
29
+
30
+ [{'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-14'},
31
+ {'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-14'},
32
+ {'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini berdiri pada abad ke-15'},
33
+ {'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-16. Kerajaan ini berdiri pada abad ke-15'},
34
+ {'generated_text': 'Kerajaan Majapahit adalah sebuah kerajaan yang pernah berdiri di Jawa Timur pada abad ke-14 hingga abad ke-15. Kerajaan ini merupakan kelanjutan dari Kerajaan Majapahit yang'}]
35
+
36
+ ```
37
+ Here is how to use this model to get the features of a given text in PyTorch:
38
+ ```python
39
+ from transformers import GPT2Tokenizer, GPT2Model
40
+
41
+ model_name='cahya/gpt2-small-indonesian-522M'
42
+ tokenizer = GPT2Tokenizer.from_pretrained(model_name)
43
+ model = GPT2Model.from_pretrained(model_name)
44
+ text = "Silakan diganti dengan text apa saja."
45
+ encoded_input = tokenizer(text, return_tensors='pt')
46
+ output = model(**encoded_input)
47
+ ```
48
+ and in Tensorflow:
49
+ ```python
50
+ from transformers import GPT2Tokenizer, TFGPT2Model
51
+
52
+ model_name='cahya/gpt2-small-indonesian-522M'
53
+ tokenizer = GPT2Tokenizer.from_pretrained(model_name)
54
+ model = TFGPT2Model.from_pretrained(model_name)
55
+ text = "Silakan diganti dengan text apa saja."
56
+ encoded_input = tokenizer(text, return_tensors='tf')
57
+ output = model(encoded_input)
58
+ ```
59
+
60
+ ## Training data
61
+
62
+ This model was pre-trained with 522MB of indonesian Wikipedia.
63
+ The texts are tokenized using a byte-level version of Byte Pair Encoding (BPE) (for unicode characters) and
64
+ a vocabulary size of 52,000. The inputs are sequences of 128 consecutive tokens.