danghuy1999 commited on
Commit
81aa3c1
1 Parent(s): 5e31785

[c] Add readme file

Browse files
Files changed (1) hide show
  1. README.md +81 -0
README.md ADDED
@@ -0,0 +1,81 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: vi
3
+ tags:
4
+ - gpt2-viwiki
5
+
6
+ license: mit
7
+ ---
8
+
9
+ # GPT-2 Fine-tuning in vietnamese wikipedia
10
+
11
+ ## Model description
12
+
13
+ This is a Vietnamese GPT-2 model which is finetuned on the [Latest pages articles of Vietnamese Wikipedia](https://dumps.wikimedia.org/viwiki/latest/viwiki-latest-pages-articles.xml.bz2).
14
+
15
+ ## Dataset
16
+
17
+ The dataset is about 800MB, includes many articles from Wikipedia.
18
+
19
+ ## How to use
20
+
21
+ You can use this model to:
22
+
23
+ - Tokenize Vietnamese sentences with GPT2Tokenizer.
24
+ - Generate text seems like a Wikipedia article.
25
+ - Finetune it to other downstream tasks.
26
+
27
+ Here is how to use the model to generate text in Pytorch:
28
+
29
+ ```python
30
+ import torch
31
+ from transformers import GPT2Tokenizer, GPT2LMHeadModel
32
+
33
+ tokenizer = GPT2Tokenizer.from_pretrained('danghuy1999/gpt2-viwiki')
34
+ model = GPT2LMHeadModel.from_pretrained('danghuy1999/gpt2-viwiki').to('cuda')
35
+
36
+ text = "Albert Einstein là nhà vật lý học tạo ra thuyết lượng tử"
37
+ input_ids = tokenizer.encode(text, return_tensors='pt').to('cuda')
38
+ max_length = 100
39
+
40
+ sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id,
41
+ do_sample=True,
42
+ max_length=max_length,
43
+ min_length=max_length,
44
+ top_k=40,
45
+ num_beams=5,
46
+ early_stopping=True,
47
+ no_repeat_ngram_size=2,
48
+ num_return_sequences=3)
49
+
50
+ for i, sample_output in enumerate(sample_outputs):
51
+ print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist())))
52
+ print('\n---')
53
+ ```
54
+
55
+ And the results are:
56
+
57
+ ```bash
58
+ >> Generated text 1
59
+
60
+ Albert Einstein là nhà vật lý học tạo ra thuyết lượng tử.
61
+
62
+ Mặc dù thuyết tương đối tổng quát không được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, nhưng các nhà lý thuyết đã đưa ra khái niệm rộng hơn về tính chất của vật chất. Một trong những nghiên cứu của Albert Einstein về sự tồn tại của hệ quy chiếu quán tính, ông đã đề xuất rằng một lực hấp dẫn có thể có khối lượng bằng năng lượng của nó. Tuy nhiên, những người cho rằng
63
+
64
+ ---
65
+ >> Generated text 2
66
+
67
+ Albert Einstein là nhà vật lý học tạo ra thuyết lượng tử. Tuy nhiên, thuyết tương đối hẹp không phải là lý thuyết của Einstein.
68
+
69
+ Cho đến tận cuối thế kỷ 19, Albert Einstein đã chứng minh được sự tồn tại của lực hấp dẫn trong một số trường hợp đặc biệt. Năm 1915, ông đưa ra khái niệm "khối lượng" để miêu tả chuyển động lượng của một hạt bằng khối lượng nghỉ của nó. Ông cho rằng năng lượng "m" là một thành phần của
70
+
71
+ ---
72
+ >> Generated text 3
73
+
74
+ Albert Einstein là nhà vật lý học tạo ra thuyết lượng tử. Tuy nhiên, thuyết tương đối hẹp không được chấp nhận rộng rãi bởi các nhà lý thuyết.
75
+
76
+ Một trong những nghiên cứu của Einstein về tính chất của lực hấp dẫn là vào năm 1905, ông đã đưa ra một khái niệm về lực học. Ông đã phát biểu rằng nếu một hạt mang điện tích dương, nó có thể chuyển đổi năng lượng của nó thành các hạt khác. Năm 1915, Arthur Eddington phát minh ra
77
+
78
+ ---
79
+ ```
80
+
81
+ You can do the same with **Tensorflow** by using the model **TFGPT2Tokenizer** instead.