Update README.md
Browse files
README.md
CHANGED
@@ -27,55 +27,80 @@ widget:
|
|
27 |
使用 pipeline 调用模型:
|
28 |
|
29 |
```python
|
30 |
-
|
31 |
-
|
32 |
-
|
33 |
-
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
|
38 |
-
|
39 |
-
|
40 |
-
|
41 |
-
|
42 |
-
|
43 |
-
|
44 |
-
|
45 |
```
|
46 |
Here is how to use this model to get the features of a given text in PyTorch:
|
47 |
|
48 |
```python
|
49 |
-
from transformers import AutoTokenizer,
|
50 |
-
tokenizer = AutoTokenizer.from_pretrained("supermy/
|
51 |
-
model =
|
52 |
-
text = "用你喜欢的任何文本替换我。"
|
53 |
-
encoded_input = tokenizer(text, return_tensors='pt')
|
54 |
-
output = model(**encoded_input)
|
55 |
```
|
56 |
|
57 |
|
58 |
|
59 |
## Training data
|
60 |
|
61 |
-
非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。
|
62 |
-
|
63 |
-
原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。
|
64 |
|
65 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
66 |
|
67 |
-
|
68 |
-
如果您使用该语料库,请注明出处:https://github.com/NiuTrans/Classical-Modern
|
69 |
-
|
70 |
-
感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
|
71 |
```
|
72 |
```
|
73 |
|
74 |
## Training procedure
|
75 |
|
76 |
-
在英伟达16G显卡训练了 4
|
|
|
|
|
77 |
|
78 |
-
[
|
79 |
|
80 |
|
81 |
```
|
|
|
27 |
使用 pipeline 调用模型:
|
28 |
|
29 |
```python
|
30 |
+
from transformers import AutoTokenizer, GPT2LMHeadModel, TextGenerationPipeline
|
31 |
+
model_checkpoint = "supermy/poetry"
|
32 |
+
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
|
33 |
+
model = GPT2LMHeadModel.from_pretrained(model_checkpoint)
|
34 |
+
text_generator = TextGenerationPipeline(model, tokenizer)
|
35 |
+
text_generator.model.config.pad_token_id = text_generator.model.config.eos_token_id
|
36 |
+
|
37 |
+
print(text_generator("举头 望 明月,", max_length=100, do_sample=True))
|
38 |
+
print(text_generator("物换 星移 几度 秋,", max_length=100, do_sample=True))
|
39 |
+
|
40 |
+
>>> print(text_generator("举头 望 明月,", max_length=100, do_sample=True))
|
41 |
+
[{'generated_text': '举头 望 明月, 何以 喻 无言 。 顾影 若为 舞 , 啸 风清 独 伤 。 四时 别有 意 , 千古 得 从容 。 赏音 我非 此 , 何如 鸥鹭 群 。 崎 山有 佳色 , 落落 样 相宜 。 不嫌 雪霜 温 , 宁 受 四时 肥 。 老 态 如 偷 面 , 冬 心 似 相知 。 春风 不可 恃 , 触 动 春 何为 。 岁晚 忽然 老 , 花前 岁月深 。 可笑 一场 梦 , 婵娟 乍 自 心 。 列 名 多 岁月 , 森 列 尽 林峦 。 试问 影 非 笑'}]
|
42 |
+
>>> print(text_generator("物换 星移 几度 秋,", max_length=100, do_sample=True))
|
43 |
+
[{'generated_text': '物换 星移 几度 秋, 消长 随时 向 一丘 。 渔者 下 逢 勾漏 令 , 漏声 高出 景阳 丘 。 天津 大尹 昔 从游 , 大尹 来时 春复 秋 。 旗鼓 日 严 宣 使 从 , 联镳 歌笑 又 风流 。 冈峦 比 并 瑶 溪 水 , 叠嶂 高 盘 黼黻 洲 。 花木 芳菲 三月 天 , 莺花 暖 翠 几 流年 。 一从 别后 多 携手 , 肠断 酒阑 怀 凛然 。 北阙 人称 似梦中 , 西山 别样 梦魂 香 。 多君 观国 亲 圭璧 , 能 预 陇西 称 巨 良 。 刷羽 刷羽'}]
|
44 |
+
|
45 |
```
|
46 |
Here is how to use this model to get the features of a given text in PyTorch:
|
47 |
|
48 |
```python
|
49 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
50 |
+
tokenizer = AutoTokenizer.from_pretrained("supermy/poetry")
|
51 |
+
model = AutoModelForCausalLM.from_pretrained("supermy/poetry")
|
|
|
|
|
|
|
52 |
```
|
53 |
|
54 |
|
55 |
|
56 |
## Training data
|
57 |
|
|
|
|
|
|
|
58 |
|
59 |
+
非常全的古诗词数据,收录了从先秦到现代的共计85万余首古诗词。
|
60 |
+
|
61 |
+
## 统计信息
|
62 |
+
|
63 |
+
| 朝代 | 诗词数 | 作者数 |
|
64 |
+
|-----------------------|--------|--------|
|
65 |
+
| 宋 | 287114 | 9446 |
|
66 |
+
| 明 | 236957 | 4439 |
|
67 |
+
| 清 | 90089 | 8872 |
|
68 |
+
| 唐 | 49195 | 2736 |
|
69 |
+
| 元 | 37375 | 1209 |
|
70 |
+
| 近现代 | 28419 | 790 |
|
71 |
+
| 当代 | 28219 | 177 |
|
72 |
+
| 明末清初 | 17700 | 176 |
|
73 |
+
| 元末明初 | 15736 | 79 |
|
74 |
+
| 清末民国初 | 15367 | 99 |
|
75 |
+
| 清末近现代初 | 12464 | 48 |
|
76 |
+
| 宋末元初 | 12058 | 41 |
|
77 |
+
| 南北朝 | 4586 | 434 |
|
78 |
+
| 近现代末当代初 | 3426 | 23 |
|
79 |
+
| 魏晋 | 3020 | 251 |
|
80 |
+
| 金末元初 | 3019 | 17 |
|
81 |
+
| 金 | 2741 | 253 |
|
82 |
+
| 民国末当代初 | 1948 | 9 |
|
83 |
+
| 隋 | 1170 | 84 |
|
84 |
+
| 唐末宋初 | 1118 | 44 |
|
85 |
+
| 先秦 | 570 | 8 |
|
86 |
+
| 隋末唐初 | 472 | 40 |
|
87 |
+
| 汉 | 363 | 83 |
|
88 |
+
| 宋末金初 | 234 | 9 |
|
89 |
+
| 辽 | 22 | 7 |
|
90 |
+
| 秦 | 2 | 2 |
|
91 |
+
| 魏晋末南北朝初 | 1 | 1 |
|
92 |
+
| 总和 | 853385 | 29377 |
|
93 |
|
|
|
|
|
|
|
|
|
94 |
```
|
95 |
```
|
96 |
|
97 |
## Training procedure
|
98 |
|
99 |
+
在英伟达16G显卡训练了 4 天整,
|
100 |
+
num_train_epochs=680。
|
101 |
+
|
102 |
|
103 |
+
模型[GPT2](https://huggingface.co/gpt2)
|
104 |
|
105 |
|
106 |
```
|