File size: 18,478 Bytes
2f6ccd3
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
loading env vars from: /home/inflaton/code/logical-reasoning/.env
Adding /home/inflaton/code/logical-reasoning to sys.path
loading /home/inflaton/code/logical-reasoning/llm_toolkit/logical_reasoning_utils.py
shenzhi-wang/Llama3.1-8B-Chinese-Chat llama-factory/saves/Llama3.1-8B-Chinese-Chat/checkpoint-35 False datasets/mgtv data/Llama3.1-8B-Chinese-Chat_results.csv
(1) GPU = NVIDIA GeForce RTX 4090. Max memory = 23.988 GB.
0.0 GB of memory reserved.
loading model: shenzhi-wang/Llama3.1-8B-Chinese-Chat with adapter: llama-factory/saves/Llama3.1-8B-Chinese-Chat/checkpoint-35
09/09/2024 18:09:11 - INFO - llamafactory.data.template - Replace eos token: <|eot_id|>
09/09/2024 18:09:12 - INFO - llamafactory.model.patcher - Using KV cache for faster generation.
09/09/2024 18:09:43 - INFO - llamafactory.model.model_utils.attention - Using torch SDPA for faster training and inference.
09/09/2024 18:09:45 - INFO - llamafactory.model.adapter - Merged 1 adapter(s).
09/09/2024 18:09:45 - INFO - llamafactory.model.adapter - Loaded adapter(s): llama-factory/saves/Llama3.1-8B-Chinese-Chat/checkpoint-35
09/09/2024 18:09:45 - INFO - llamafactory.model.loader - all params: 8,030,261,248
(2) GPU = NVIDIA GeForce RTX 4090. Max memory = 23.988 GB.
15.502 GB of memory reserved.
loading train/test data files
DatasetDict({
    train: Dataset({
        features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label', 'answer', 'title', 'puzzle', 'truth', 'train_text', 'prompt'],
        num_rows: 3000
    })
})
--------------------------------------------------
text: 甄加索是自杀吗
--------------------------------------------------
label: 不是
--------------------------------------------------
answer: nan
--------------------------------------------------
title: 海岸之谜
--------------------------------------------------
puzzle: 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?
--------------------------------------------------
truth: 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。
--------------------------------------------------
train_text: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个情景猜谜游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。
2. 主持人知道谜底,谜底是谜面的答案。
3. 参与者可以询问任何封闭式问题来找寻事件的真相。
4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下:
   - 若谜面和谜底能找到问题的答案,回答:是或者不是
   - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要
   - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误
   - 若参与者提问基本还原了谜底真相,回答:回答正确
5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。

请严格按照这些规则回答参与者提出的问题。

**谜面:** 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?

**谜底:** 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。

**参与者提出的问题:** 甄加索是自杀吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

不是<|eot_id|>
--------------------------------------------------
prompt: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个情景猜谜游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。
2. 主持人知道谜底,谜底是谜面的答案。
3. 参与者可以询问任何封闭式问题来找寻事件的真相。
4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下:
   - 若谜面和谜底能找到问题的答案,回答:是或者不是
   - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要
   - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误
   - 若参与者提问基本还原了谜底真相,回答:回答正确
5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。

请严格按照这些规则回答参与者提出的问题。

**谜面:** 在远离城市喧嚣的海边小屋,一天清晨,邻居发现甄加索僵卧在沙滩上,已无生命迹象。现场没有发现任何打斗的迹象。请问甄加索的死因是什么?

**谜底:** 甄加索是一位热爱自然的画家,他每年都会来到这个海边小屋寻找灵感。在他生命的最后几天,他一直在创作一幅描绘海洋生物的画作。在画即将完成的前一天晚上,他骑着自行车外出,打算在海边观赏夜景。然而,他在沙滩上意外发现了一只搁浅的海豚,为了救助这只海豚,他耗费了极大的体力,最终成功将其送回海中。筋疲力尽的甄加索在沙滩上睡着了,由于他患有严重的心脏病,却未告知旁人,在寒冷的海风中,他的心脏停止了跳动。因此,警方在现场只发现了车轮痕迹和未完成的画作,而没有发现任何他杀的迹象。

**参与者提出的问题:** 甄加索是自杀吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>


--------------------------------------------------
text: 死者受伤了吗
--------------------------------------------------
label: 不是
--------------------------------------------------
answer: nan
--------------------------------------------------
title: 甄庄哭声
--------------------------------------------------
puzzle: 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。
--------------------------------------------------
truth: 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。
--------------------------------------------------
train_text: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个情景猜谜游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。
2. 主持人知道谜底,谜底是谜面的答案。
3. 参与者可以询问任何封闭式问题来找寻事件的真相。
4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下:
   - 若谜面和谜底能找到问题的答案,回答:是或者不是
   - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要
   - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误
   - 若参与者提问基本还原了谜底真相,回答:回答正确
5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。

请严格按照这些规则回答参与者提出的问题。

**谜面:** 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。

**谜底:** 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。

**参与者提出的问题:** 死者受伤了吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>

不是<|eot_id|>
--------------------------------------------------
prompt: <|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are an expert in logical reasoning.<|eot_id|><|start_header_id|>user<|end_header_id|>

你是一个情景猜谜游戏的主持人。游戏规则如下:

1. 参与者会得到一个谜面,谜面会描述一个简单又难以理解的事件。
2. 主持人知道谜底,谜底是谜面的答案。
3. 参与者可以询问任何封闭式问题来找寻事件的真相。
4. 对于每个问题,主持人将根据实际情况回答以下五个选项之一:是、不是、不重要、回答正确、问法错误。各回答的判断标准如下:
   - 若谜面和谜底能找到问题的答案,回答:是或者不是
   - 若谜面和谜底不能直接或者间接推断出问题的答案,回答:不重要
   - 若参与者提问不是一个封闭式问题或者问题难以理解,回答:问法错误
   - 若参与者提问基本还原了谜底真相,回答:回答正确
5. 回答中不能添加任何其它信息,也不能省略选项中的任何一个字。例如,不可以把“不是”省略成“不”。

请严格按照这些规则回答参与者提出的问题。

**谜面:** 在一个安静的夜晚,小村庄的湖边突然传来了阵阵哭泣声。第二天早晨,村长甄锐发现湖边的石头上放着一顶破旧的帽子,但没有人知道这顶帽子是从哪里来的,哭泣声又是为何。请还原故事真相。

**谜底:** 原来,这顶破旧的帽子属于一个小男孩,他小时候与爷爷在湖边生活。爷爷教他钓鱼、游泳,还告诉他湖中的海龟是他们的朋友。后来,小男孩随父母去了城市生活,但每年夏天都会回到村子探望爷爷。然而,去年夏天,爷爷因病去世,小男孩伤心欲绝。今年夏天,他回到村子,来到湖边,想起和爷爷的美好回忆,忍不住哭泣。他将爷爷的帽子放在湖边的石头上,希望能让爷爷的在天之灵得到安慰。那晚的哭泣声正是小男孩在祭莫他亲爱的爷爷。

**参与者提出的问题:** 死者受伤了吗
<|eot_id|><|start_header_id|>assistant<|end_header_id|>


Evaluating model: shenzhi-wang/Llama3.1-8B-Chinese-Chat
Batch output: ['不是', '是']
(3) GPU = NVIDIA GeForce RTX 4090. Max memory = 23.988 GB.
22.955 GB of memory reserved.
      text  ... shenzhi-wang/Llama3.1-8B-Chinese-Chat/checkpoint-175_torch.float16_lf
0  甄加索是自杀吗  ...                                                 不是                   

[1 rows x 11 columns]
{'accuracy': 0.709, 'incorrect_ids': [9, 15, 16, 24, 31, 32, 43, 55, 59, 61, 65, 66, 67, 78, 81, 83, 91, 93, 96, 97, 102, 104, 106, 110, 112, 113, 115, 120, 123, 135, 141, 143, 150, 153, 156, 160, 161, 163, 164, 170, 171, 179, 180, 190, 191, 192, 193, 198, 199, 200, 202, 209, 218, 222, 224, 225, 227, 228, 229, 231, 233, 234, 236, 237, 240, 242, 243, 245, 247, 248, 250, 252, 253, 255, 259, 260, 261, 263, 265, 268, 269, 276, 279, 286, 287, 292, 293, 294, 295, 299, 300, 301, 304, 308, 309, 314, 316, 317, 318, 320, 321, 325, 328, 329, 330, 332, 333, 334, 335, 338, 341, 342, 343, 350, 351, 352, 353, 355, 356, 360, 361, 362, 368, 370, 371, 372, 374, 377, 383, 386, 389, 395, 397, 398, 408, 409, 410, 411, 414, 416, 419, 428, 429, 432, 438, 445, 446, 450, 452, 454, 455, 456, 457, 458, 468, 469, 470, 471, 472, 473, 474, 476, 478, 480, 484, 485, 487, 488, 490, 492, 493, 494, 495, 497, 500, 501, 502, 504, 506, 507, 508, 509, 510, 511, 513, 514, 516, 517, 518, 519, 530, 531, 536, 540, 553, 556, 560, 570, 571, 579, 581, 589, 591, 593, 596, 597, 601, 614, 622, 629, 632, 640, 644, 645, 647, 657, 663, 666, 669, 680, 682, 691, 695, 702, 705, 721, 729, 730, 731, 732, 734, 739, 740, 752, 754, 758, 769, 770, 771, 772, 774, 779, 781, 783, 785, 786, 788, 790, 791, 794, 795, 798, 799, 805, 808, 809, 810, 813, 814, 816, 817, 818, 819, 820, 821, 822, 823, 824, 840, 841, 842, 844, 847, 849, 851, 861, 862, 866, 867, 868, 869, 870, 872, 873, 875, 876, 884, 888, 889, 890, 901, 904, 910, 913, 927, 929, 932, 935, 937, 940, 942, 943, 945, 952, 962, 964, 966, 969, 971, 972, 980, 986, 989, 991, 993, 994, 998, 1001, 1005, 1006, 1011, 1012, 1014, 1022, 1025, 1028, 1031, 1036, 1038, 1040, 1043, 1045, 1051, 1055, 1056, 1057, 1061, 1066, 1071, 1075, 1076, 1080, 1083, 1087, 1096, 1098, 1104, 1125, 1126, 1129, 1135, 1138, 1147, 1149, 1159, 1160, 1161, 1166, 1178, 1180, 1181, 1183, 1184, 1185, 1198, 1202, 1203, 1212, 1216, 1224, 1228, 1231, 1232, 1234, 1235, 1238, 1240, 1241, 1242, 1250, 1251, 1252, 1254, 1255, 1256, 1258, 1259, 1270, 1273, 1278, 1280, 1289, 1305, 1306, 1308, 1313, 1315, 1317, 1326, 1331, 1336, 1337, 1339, 1342, 1345, 1347, 1348, 1349, 1353, 1360, 1362, 1363, 1364, 1367, 1370, 1380, 1385, 1386, 1389, 1391, 1392, 1393, 1395, 1400, 1402, 1406, 1411, 1416, 1420, 1422, 1423, 1424, 1425, 1430, 1431, 1435, 1438, 1443, 1444, 1445, 1446, 1448, 1449, 1450, 1452, 1453, 1455, 1457, 1459, 1462, 1463, 1469, 1476, 1478, 1485, 1486, 1490, 1491, 1494, 1496, 1503, 1506, 1510, 1513, 1517, 1519, 1525, 1526, 1528, 1533, 1536, 1538, 1540, 1544, 1547, 1551, 1556, 1558, 1559, 1560, 1562, 1573, 1580, 1581, 1585, 1587, 1590, 1591, 1593, 1594, 1602, 1603, 1604, 1613, 1614, 1616, 1620, 1622, 1624, 1625, 1627, 1632, 1633, 1637, 1641, 1643, 1645, 1647, 1648, 1650, 1652, 1654, 1655, 1658, 1659, 1668, 1669, 1671, 1672, 1673, 1674, 1679, 1683, 1685, 1686, 1689, 1691, 1695, 1712, 1716, 1726, 1727, 1734, 1736, 1745, 1749, 1751, 1755, 1756, 1757, 1758, 1761, 1765, 1767, 1769, 1774, 1780, 1783, 1786, 1790, 1791, 1795, 1796, 1797, 1799, 1804, 1811, 1812, 1816, 1823, 1835, 1839, 1840, 1841, 1848, 1852, 1854, 1860, 1869, 1879, 1897, 1899, 1907, 1913, 1914, 1919, 1934, 1935, 1941, 1943, 1945, 1953, 1957, 1958, 1967, 1978, 1979, 1981, 1984, 1986, 1987, 1989, 1990, 1991, 1992, 1994, 1995, 2001, 2010, 2015, 2017, 2021, 2025, 2028, 2029, 2035, 2036, 2038, 2044, 2049, 2054, 2059, 2062, 2064, 2075, 2077, 2081, 2091, 2092, 2094, 2100, 2102, 2107, 2110, 2112, 2118, 2119, 2121, 2126, 2133, 2138, 2145, 2147, 2159, 2160, 2162, 2164, 2173, 2177, 2181, 2185, 2186, 2188, 2192, 2193, 2194, 2195, 2196, 2197, 2199, 2208, 2212, 2215, 2223, 2226, 2230, 2231, 2237, 2240, 2245, 2246, 2247, 2248, 2249, 2250, 2256, 2257, 2262, 2274, 2278, 2280, 2281, 2287, 2290, 2297, 2304, 2312, 2317, 2320, 2322, 2324, 2330, 2333, 2334, 2337, 2343, 2348, 2356, 2360, 2363, 2364, 2366, 2367, 2370, 2378, 2380, 2395, 2396, 2400, 2404, 2409, 2410, 2412, 2420, 2422, 2423, 2424, 2425, 2429, 2437, 2440, 2441, 2442, 2444, 2445, 2449, 2463, 2465, 2469, 2475, 2476, 2477, 2482, 2484, 2485, 2486, 2488, 2491, 2493, 2495, 2498, 2499, 2501, 2503, 2511, 2512, 2515, 2517, 2522, 2526, 2528, 2529, 2530, 2532, 2535, 2538, 2546, 2549, 2555, 2556, 2557, 2559, 2560, 2575, 2577, 2589, 2605, 2606, 2610, 2624, 2626, 2629, 2632, 2635, 2636, 2644, 2649, 2655, 2661, 2664, 2667, 2668, 2670, 2671, 2676, 2678, 2681, 2686, 2697, 2701, 2707, 2708, 2710, 2714, 2716, 2728, 2731, 2732, 2733, 2735, 2736, 2742, 2745, 2746, 2747, 2752, 2754, 2757, 2760, 2762, 2764, 2766, 2770, 2777, 2781, 2788, 2791, 2797, 2798, 2800, 2805, 2806, 2807, 2811, 2812, 2815, 2816, 2818, 2820, 2823, 2834, 2837, 2841, 2842, 2843, 2844, 2845, 2846, 2857, 2858, 2861, 2866, 2867, 2870, 2877, 2878, 2880, 2882, 2884, 2888, 2896, 2899, 2902, 2905, 2912, 2913, 2915, 2916, 2917, 2919, 2921, 2923, 2927, 2928, 2929, 2933, 2937, 2944, 2949, 2953, 2955, 2964, 2966, 2967, 2975, 2977, 2979, 2983, 2985, 2990, 2995, 2998, 2999]}