supermy commited on
Commit
dbf912c
1 Parent(s): d6a625d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +56 -31
README.md CHANGED
@@ -27,55 +27,80 @@ widget:
27
  使用 pipeline 调用模型:
28
 
29
  ```python
30
- >>> from transformers import pipeline
31
- >>> model_checkpoint = "supermy/c2m"
32
- >>> translator = pipeline("translation",
33
- model=model_checkpoint,
34
- num_return_sequences=1,
35
- max_length=52,
36
- truncation=True,)
37
- >>> translator("往者不可谏,来者犹可追。")
38
- [{'translation_text': '过 情 不能 劝 谏 , 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情 不能 劝 谏 , 那 么 , 未来 的 事 情 还 可以 追 回 来 。 如 果 过 去 的 事 情'}]
39
- >>> translator("福兮祸所伏,祸兮福所倚。",do_sample=True)
40
- [{'translation_text': '幸 患 所 隐 藏 的 , 灾 祸 是 福 祸 所 依 托 的 。 这 些 都 是 幸 福 所 依 托 的 。 这 些 都 是 幸 福 所 带 来 的 。 幸 福 啊 , 也 是 幸 福'}]
41
- >>> translator("成事不说,遂事不谏,既往不咎。", num_return_sequences=1,do_sample=True)
42
- [{'translation_text': '事 , 事 情 不 劝 谏 , 过 去 的 事 就 不 会 责 怪 。 事 情 没 有 多 久 了 , 事 情 没 有 多 久 , 事 情 没 有 多 久 了 , 事 情 没 有 多'}]
43
- >>> translator("逝者如斯夫!不舍昼夜。",num_return_sequences=1,max_length=30)
44
- [{'translation_text': '逝 去 的 人 就 像 这 样 啊 , 不分 昼夜 地 去 追 赶 它 们 。 这 样 的 人 就 不 会 忘 记'}]
45
  ```
46
  Here is how to use this model to get the features of a given text in PyTorch:
47
 
48
  ```python
49
- from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
50
- tokenizer = AutoTokenizer.from_pretrained("supermy/c2m")
51
- model = AutoModelForSeq2SeqLM.from_pretrained("supermy/c2m")
52
- text = "用你喜欢的任何文本替换我。"
53
- encoded_input = tokenizer(text, return_tensors='pt')
54
- output = model(**encoded_input)
55
  ```
56
 
57
 
58
 
59
  ## Training data
60
 
61
- 非常全的文言文(古文)-现代文平行语料,基本涵盖了大部分经典古籍著作。
62
-
63
- 原始爬取的数据是篇章级对齐,经过脚本分句(按照句号分号感叹号问号划分)以及人工校对,形成共计约96万句对。目录bitext下是文言文-现代文对齐的平行数据。此外,目录source下是文言文单语数据,target下是现代文单语数据,这两个目录下的文件内容按行对齐。
64
 
65
- 以下为数据统计信息。其中,短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
66
 
67
-
68
- 如果您使用该语料库,请注明出处:https://github.com/NiuTrans/Classical-Modern
69
-
70
- 感谢为该语料库做出贡献的成员:丁佳鹏、杨文权、刘晓晴、曹润柘、罗应峰。
71
  ```
72
  ```
73
 
74
  ## Training procedure
75
 
76
- 在英伟达16G显卡训练了 4 天整,共计68 次。
 
 
77
 
78
- [文言文数据集](https://huggingface.co/datasets/supermy/Classical-Modern) 训练数据. Helsinki-NLP [Helsinki-NLP](Helsinki-NLP/opus-mt-zh-en) 模型:
79
 
80
 
81
  ```
 
27
  使用 pipeline 调用模型:
28
 
29
  ```python
30
+ from transformers import AutoTokenizer, GPT2LMHeadModel, TextGenerationPipeline
31
+ model_checkpoint = "supermy/poetry"
32
+ tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
33
+ model = GPT2LMHeadModel.from_pretrained(model_checkpoint)
34
+ text_generator = TextGenerationPipeline(model, tokenizer)
35
+ text_generator.model.config.pad_token_id = text_generator.model.config.eos_token_id
36
+
37
+ print(text_generator("举头 望 明月,", max_length=100, do_sample=True))
38
+ print(text_generator("物换 星移 几度 秋,", max_length=100, do_sample=True))
39
+
40
+ >>> print(text_generator("举头 明月,", max_length=100, do_sample=True))
41
+ [{'generated_text': '举头 望 明月, 何以 喻 无言 。 顾影 若为 舞 , 啸 风清 独 伤 。 四时 别有 意 , 千古 得 从容 。 赏音 我非 此 , 何如 鸥鹭 群 。 崎 山有 佳色 , 落落 样 相宜 。 不嫌 雪霜 温 , 宁 受 四时 肥 。 老 态 如 偷 面 , 冬 心 似 相知 。 春风 不可 恃 , 触 动 春 何为 。 岁晚 忽然 老 , 花前 岁月深 。 可笑 一场 梦 , 婵娟 乍 自 心 。 列 名 多 岁月 , 森 列 尽 林峦 。 试问 影 非 笑'}]
42
+ >>> print(text_generator("物换 星移 几度 秋,", max_length=100, do_sample=True))
43
+ [{'generated_text': '物换 星移 几度 秋, 消长 随时 向 一丘 。 渔者 下 逢 勾漏 令 , 漏声 高出 景阳 丘 。 天津 大尹 昔 从游 , 大尹 来时 春复 秋 。 旗鼓 日 严 宣 使 从 , 联镳 歌笑 又 风流 。 冈峦 比 并 瑶 溪 水 , 叠嶂 高 盘 黼黻 洲 。 花木 芳菲 三月 天 , 莺花 暖 翠 几 流年 。 一从 别后 多 携手 , 肠断 酒阑 怀 凛然 。 北阙 人称 似梦中 , 西山 别样 梦魂 香 。 多君 观国 亲 圭璧 , 能 预 陇西 称 巨 良 。 刷羽 刷羽'}]
44
+
45
  ```
46
  Here is how to use this model to get the features of a given text in PyTorch:
47
 
48
  ```python
49
+ from transformers import AutoTokenizer, AutoModelForCausalLM
50
+ tokenizer = AutoTokenizer.from_pretrained("supermy/poetry")
51
+ model = AutoModelForCausalLM.from_pretrained("supermy/poetry")
 
 
 
52
  ```
53
 
54
 
55
 
56
  ## Training data
57
 
 
 
 
58
 
59
+ 非常全的古诗词数据,收录了从先秦到现代的共计85万余首古诗词。
60
+
61
+ ## 统计信息
62
+
63
+ | 朝代 | 诗词数 | 作者数 |
64
+ |-----------------------|--------|--------|
65
+ | 宋 | 287114 | 9446 |
66
+ | 明 | 236957 | 4439 |
67
+ | 清 | 90089 | 8872 |
68
+ | 唐 | 49195 | 2736 |
69
+ | 元 | 37375 | 1209 |
70
+ | 近现代 | 28419 | 790 |
71
+ | 当代 | 28219 | 177 |
72
+ | 明末清初 | 17700 | 176 |
73
+ | 元末明初 | 15736 | 79 |
74
+ | 清末民国初 | 15367 | 99 |
75
+ | 清末近现代初 | 12464 | 48 |
76
+ | 宋末元初 | 12058 | 41 |
77
+ | 南北朝 | 4586 | 434 |
78
+ | 近现代末当代初 | 3426 | 23 |
79
+ | 魏晋 | 3020 | 251 |
80
+ | 金末元初 | 3019 | 17 |
81
+ | 金 | 2741 | 253 |
82
+ | 民国末当代初 | 1948 | 9 |
83
+ | 隋 | 1170 | 84 |
84
+ | 唐末宋初 | 1118 | 44 |
85
+ | 先秦 | 570 | 8 |
86
+ | 隋末唐初 | 472 | 40 |
87
+ | 汉 | 363 | 83 |
88
+ | 宋末金初 | 234 | 9 |
89
+ | 辽 | 22 | 7 |
90
+ | 秦 | 2 | 2 |
91
+ | 魏晋末南北朝初 | 1 | 1 |
92
+ | 总和 | 853385 | 29377 |
93
 
 
 
 
 
94
  ```
95
  ```
96
 
97
  ## Training procedure
98
 
99
+ 在英伟达16G显卡训练了 4 天整,
100
+ num_train_epochs=680。
101
+
102
 
103
+ 模型[GPT2](https://huggingface.co/gpt2)
104
 
105
 
106
  ```