ZoneTwelve commited on
Commit
ecaa8dc
1 Parent(s): 58d6ba5

Update LICENSE

Browse files
Files changed (4) hide show
  1. LICENSE +186 -0
  2. LICENSE.pdf +0 -0
  3. README.md +154 -0
  4. README_en.md +155 -0
LICENSE CHANGED
@@ -0,0 +1,186 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ TAIDE L 類模型社群授權同意書
2
+ TAIDE L Models Community License Agreement
3
+
4
+ 發布日期:2024 年 __ 月 __日
5
+
6
+ 前言
7
+ 財團法人國家實驗研究院(以下稱「國研院」)開發並建置 TAIDE L 類模型,當您取得或開
8
+ 始使用 TAIDE L 類模型及其材料(以下合稱「TAIDE L 類模型」)時,即表示您已閱讀、瞭
9
+ 解並同意接受本社群授權同意書的所有內容。如果您不同意本社群授權同意書的內容,或
10
+
11
+ 者您適用的國家、地區排除本社群授權同意書部分或全部的內容時,您應即停止使用
12
+ TAIDE L 類模型。
13
+
14
+ 一、 定義
15
+ 1. 授權同意:係指符合本社群授權同意書的條件下,國研院同意您得以使用、重製、修
16
+
17
+ 改、散布等方式利用 TAIDE L 類模型。
18
+
19
+ 2. 授權方:係指對於 TAIDE L 類模型享有所有權及智慧財產權的法律主體。本社群授權同
20
+ 意書下的授權方是國研院,或經國研院授權可對第三方再授權的個人或其他法律主體。
21
+ 3. 您 (或「您的」):係指本社群授權同意書下的被授權人,得行使本社群授權同意書所授
22
+ 予的權利或/及基於任何目的、於任何領域利用、取用 TAIDE L 類模型的個人或其他法
23
+ 律主體。
24
+
25
+ 4. 第三方:係指「授權方」、「「您」以的的任何個人或其他法律主體。
26
+ 5. TAIDE L 類模型:TAIDE L 類模型是一個人工智慧的語言與對話基礎模型、軟體與演算
27
+ 法,包含機器學習模型程式碼、訓練所得模型之參數、驅動程式碼等,您得以自有或有
28
+
29
+ 權使用的內容、資料以上述材料進行調整或修正,以發展成符合您自身需求的系統或模
30
+ 型。
31
+
32
+ 6. 衍生模型:係指您將 TAIDE L 類模型的參數或輸出模式遷移而建置的其他模型、透過使
33
+ 用 TAIDE L 類模型產生合成資料訓練而成的其他模型、或對於 TAIDE L 類模型進行修
34
+ 改或變更以建置與 TAIDE L 類模型具有相似效能的其他模型。
35
+
36
+ 7. 個人資料:係指得以直接或間接方式識別特定自然人之資料。個人資料的處理包括但不
37
+ 限於記錄、輸入、儲存、編輯、更正、複製、檢索、刪除、輸出、連結或內部傳送等方
38
+ 式。
39
+
40
+ 二、 授權同意與使用限制
41
+ 1. 在合乎本社群授權同意書的前提下,國研院特此授予您一個【非專屬性、全球性、不可
42
+
43
+ 轉讓的、不可再授權的、無償的】授權同意。
44
+
45
+ 2. 您清楚知悉 TAIDE L 類模型是基於 Meta AI 之「Llama 2 模型」, 該模型相關授權限制
46
+ 條件與規範 (包括但不限於 META AI Llama 2 Community License Agreement、META AI
47
+ Llama 2 Acceptable Use Policy),請參考:https://ai.meta.com/llama/。您應自行上線閱覽
48
+
49
+
50
+
51
+
52
+ 並同意遵守前述限制條件及規範。
53
+
54
+ 3. 您可以在您所建置的衍生模型中添加新的智慧財產權聲明,並可以為您的衍生模型提供
55
+ 不同於本社群授權同意書的條件,但前提是您必須確保衍生模型的使用、重製等條件不
56
+ 得牴觸本社群授權同意書。
57
+
58
+ 4. 您得依法對於衍生模型享有相關權利,但您必須滿足以下的條件,若有違反,您依本社
59
+
60
+ 群授權同意書下所取得的授權同意即行終止;
61
+ (1) 您不得出於任何軍事或非法目的使用、重製、修改、變更或建置與 TAIDE L 類模
62
+
63
+ 型相關的全部或部分衍生模型;
64
+
65
+ (2) 您因為修改、變更 TAIDE L 類模型所得到的衍生模型,必須以顯著的方式說明或
66
+ 指出修改的內容,且上述修改不得違反本社群授權同意書下的授權限制條件;
67
+ (3) 您對於 TAIDE L 類模型的修改或任何使用行為(包括但不限於使用 TAIDE L 類模
68
+ 型所得的衍生模型)不得違反中華民國法令或其他國家、國際組織適用法律(包括
69
+ 但不限於歐盟人工智慧法案)之要求,亦不得損害國研院或任何第三方之權利(包括
70
+ 但不限於肖像權、名譽權、隱私權等人格權,著作權、專利權、營業秘密等智慧
71
+ 財產權或者其他財產權);
72
+
73
+ (4) 如果您將您的衍生模型向您的使用者或接收者為重製、公開口述、公開播送、公
74
+ 開演出、公開傳輸、公開展示、改作、編輯、散布及出租等行為,您應向您的使
75
+ 用者或接收者提供本社群授權同意書之副本,並促其遵守本社群授權同意書的所
76
+ 有規範;
77
+
78
+ (5) 除非取得國研院事前書面同意的,您不得聲稱為國研院或國研院的代理人、受僱
79
+ 人、合作廠商或其他未經國研院明示同意的身分,您亦不得聲稱為 TAIDE L 類模
80
+ 型之所有權人。
81
+
82
+ (6) 您僅得於國研院或國研院授權的網站上取用 TAIDE L 類模型。
83
+ (7) 您不能以任何方式自行或允許、協助第三方違反本社群授權同意書下的限制或規
84
+
85
+ 範。
86
+
87
+ 三、 智慧財產權
88
+ 1. 您就利用 TAIDE L 類模型而創作之衍生模型,依法享有該衍���作品之智慧財產權(包括
89
+ 但不限於著作人格權與著作財產權),惟您亦知悉該衍生作品之保護,不影響國研院就
90
+ 原作品即 TAIDE L 類模型所享有的既有權利。
91
+
92
+ 2. 您充分理解並同意,您如因使用、改作或變更 TAIDE L 類模型之內容、形式或名目而
93
+ 發生任何法律爭議(包括但不限於誹謗、抄襲等侵害他人著作權或其他侵權情事)或您遭
94
+ 使用者或第三方對您提起訴訟、消費爭議等相類情事,均應由您自行承擔一切相關之法
95
+ 律責任。相對地,國研院如因此蒙受任何損害,國研院亦得向您請求損害賠償。
96
+
97
+ 四、 商標
98
+
99
+ 除非係合理使用的,您不得任意使用國研院的任何商標、服務標章、網站名稱或其他
100
+ 作品名稱(以下合稱為「標識」)。除取得國研院事前書面同意的,您不得將前述的標
101
+
102
+ 識以單獨或結合的方式展示、使用或以之在任何國家或地區申請商標註冊;您也不得
103
+ 向他人明示或暗示享有展示、使用或處分前述標識的權利。倘因您違反本條規定而造
104
+
105
+ 成國研院或第三方的損害,您應自行承擔相關的法律責任。
106
+
107
+ 五、 免責聲明與責任限制
108
+ 1. 除非適用法律要求的,國研院依本社群授權同意書所提供的服務都是按「現狀」及「原
109
+ 樣」方式提供之。國研院在此明確聲明,國研院並未提供任何種類之明示或默示性保證
110
+
111
+ 與條件,包括但不限於適銷性、可獲利性、特殊用途之適用性及非侵權或所有權等擔
112
+ 保。您充分理解並同意,您應當自行承擔使用、修改 TAIDE L 類模型的所有風險,且您
113
+ 應自行確認使用 TAIDE L 類模型或散布衍生模型的適法性,並承擔與此相關的法律責
114
+ 任。
115
+
116
+ 2. 您充分理解並同意,國研院或國研院的代理人、使用人、受僱人、隸屬單位、合作單位
117
+ 對於您使用、修改 TAIDE L 類模型所生之損害或損失均不負賠償責任,縱然國研院已接
118
+ 獲通知或已知曉發生上開損害或損失之可能性,亦同。相對地,若因為您違法或違反本
119
+ 社群授權同意書使用 TAIDE L 類模型而導致國研院遭受任何損害或損失,國研院將有權
120
+ 向您請求承擔全部的賠償責任。
121
+
122
+ 3. 縱然國研院在 TAIDE L 類模型訓練的所有階段,都盡力維護 TAIDE L 類模型的合法性
123
+ 和準確性,惟因受限於偵測保護機制,這將有可能減損 TAIDE L 類模型的輸出結果的準
124
+ 確性。因此,國研院在此明確聲明,國研院不承擔您因使用 TAIDE L 類模型及其原始程
125
+ 式碼而導致的資料安全問題或任何涉及 TAIDE L 類模型被誤導、誤用、不正當或不合法
126
+ 使用而產生的任何風險和責任。
127
+
128
+ 4. 您充分理解並同意,國研院並未向您保證或承諾 TAIDE L 類模型將符合您自身需求,您
129
+ 必須自行訓練、改善或優化您的衍生模型,並獨自承擔由此可能產生的任何風險和後
130
+ 果。
131
+
132
+ 5. 您充分理解並同意,您將遵守所有適用的法令以進行個人資料的處理,尤其是遵守個人
133
+ 資訊保護法的相關規定。敬請注意,縱使國研院依本社群授權同意書授予您使用 TAIDE
134
+ L 類模型的權利,然而這並不代表您已經獲得處理相關個人資料的授權。您作為獨立的
135
+ 個人資料處理者,須自行確認及遵循相關法令的要求。
136
+
137
+ 6. 您充分理解並同意,除了上述的條款的,國研院仍有權判斷您是否有其他違反有關法令
138
+ 或本社群授權同意書的行為,進而採取適當的法律對策。除此之的,國研院有權通知相
139
+ 關的政府單位,倘若有此類情形,您應獨自承擔由此而產生的一切法律責任。
140
+
141
+ 7. 您充分理解並同意,您將對 TAIDE L 類模型的使用及衍生模型所涉及的智慧財產權風險
142
+
143
+ 或與之相關的任何損害或損失負責。
144
+ 8. 本社群授權同意書所稱損害或損失係指:
145
+
146
+ (1) 收入損失;
147
+ (2) 實際或預期利潤損失;
148
+ (3) 預期節約損失;
149
+ (4) 業務損失;
150
+ (5) 機會損失;
151
+ (6) 商譽、聲譽損失;或
152
+ (7) 任何間接性或衍生性損害或損失。
153
+
154
+ 六、 自願接受額的義務的情形
155
+ 您於散布衍生模型之時,您可以選擇向您的使用者或接收者提供保固、技術支援、保證、
156
+ 賠償或其他約定義務,並得選擇向您的使用者或接收者收取費用。然而,您充分理解並同
157
+
158
+ 意,您在接受此類義務時,您無權代表國研院,國研院並不因您自願接受此類額的義務、
159
+ 同意賠償或其他相類情形而負擔任何義務或責任。
160
+
161
+ 七、 品牌曝光與標識 TAIDE L 類模型的義務
162
+ 如果您將您以 TAIDE L 類模型為基礎而建置的衍生模型在中華民國境內(的)提供使用授權
163
+ 或是參加任何中華民國境內(的)組織、個人舉辦的排名比賽(包括但不限於對於模型演算法
164
+ 準確度、效能等面向評比)��話,您必須在該模型說明中以顯著方式標識您的衍生模型係基
165
+ 於 TAIDE L 類模型而進行的衍生作品。
166
+
167
+ 八、 期限與終止
168
+ 本社群授權同意書自您接受本社群授權同意書或利用、取用 TAIDE L 類模型起生效,並將
169
+ 持續有效。若發生您有違反本社群授權同意書的任何條款或條件,國研院有權終止本社群
170
+ 授權同意書。本社群授權同意書終止後,您應刪除並停止使用 TAIDE L 類模型,惟第三條
171
+ 仍持續有效。
172
+
173
+ 九、 其他
174
+ 1. 您可以隨時檢視本社群授權同意書的最新版本。本社群授權同意書的修訂將在發布之時
175
+ 立即生效,您若於變更生效日期後繼續使用 TAIDE L 類模型,此即表示您同意遵守修
176
+ 改後的所有條款與條件。
177
+
178
+ 2. 倘因本社群授權同意書或因使用 TAIDE L 類模型所生之爭議對國研院或第三人提起訴
179
+ 訟,您依本社群授權同意書所獲得的授權同意將自提起訴訟之日起自動終止之。
180
+
181
+ 3. 準據法與管轄權:本社群授權同意書所發生的爭議,應以中華民國法律為準據法,並以
182
+
183
+ 臺灣臺北地方法院為管轄法院。
184
+
185
+
186
+
LICENSE.pdf ADDED
Binary file (232 kB). View file
 
README.md CHANGED
@@ -3,3 +3,157 @@ license: other
3
  license_name: license
4
  license_link: LICENSE
5
  ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3
  license_name: license
4
  license_link: LICENSE
5
  ---
6
+
7
+ * [English Version](./README_en.md)
8
+
9
+ # 模型簡介
10
+ * [TAIDE計畫](https://taide.tw/index)致力於開發符合台灣語言和文化特性的生成式人工智慧對話引擎模型,同時建構可信任的人工智慧環境。結合產學研能量,推動可信任生成式人工智慧的發展,提升台灣在國際競爭中的地位,促進產業發展,避免對外國技術的依賴。
11
+ * 本計畫開發的大型語言模型以 Meta 公司釋出的 [LLaMA2-7b](https://huggingface.co/meta-llama/Llama-2-7b-hf) 為基礎,導入台灣不同領域可用的文本與訓練素材,提高模型在正體中文回應的能力與特定任務的表現。公開釋出的模型如下:
12
+ * [TAIDE-LX-7B](https://huggingface.co/taide/TAIDE-LX-7B): 以 LLaMA2-7b 為基礎,僅使用繁體中文資料預訓練 (continuous pretraining)的模型,適合使用者會對模型進一步微調(fine tune)的使用情境。因預訓練模型沒有經過微調和偏好對齊,可能會產生惡意或不安全的輸出,使用時請小心。
13
+ * [TAIDE-LX-7B-Chat](https://huggingface.co/taide/TAIDE-LX-7B-Chat): 以 TAIDE-LX-7B 為基礎,透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助的使用情境。TAIDE-LX-7B-Chat另外有提供[4 bit 量化模型](https://huggingface.co/taide/TAIDE-LX-7B-Chat-4bit),量化模型主要是提供使用者的便利性,可能會影響效能與更多不可預期的問題,還請使用者理解與注意。
14
+
15
+ # 模型參數
16
+ * 參數量: 7B
17
+ * 最大內容長度 (context length): 4K
18
+ * 繁中訓練資料 token 量: 41.44B
19
+ * 訓練時間: 1531.82 H100 GPU Hours
20
+
21
+ # 特色
22
+ * 額外擴充24720個中文字元、字詞,強化模型處理繁體中文的能力
23
+ * 嚴格把關模型的訓練資料,提升模型生成資料的可信任性和適用性
24
+ * 針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強
25
+ * 針對台灣在地文化、用語、國情等知識做加強
26
+ * 具備多輪問答對話能力
27
+
28
+ # 應用範例
29
+ | 任務 | 使用者輸入 | 模型輸出 |
30
+ | --- | -------- | ------- |
31
+ | 寫文章 | 請以以下內容為基礎,寫一篇文章:撰寫一篇作文,題目為《一張舊照片》,內容要求為:選擇一張令你印象深刻的照片,說明令你印象深刻的原因,並描述照片中的影像及背後的故事。記錄成長的過程、與他人的情景、環境變遷和美麗的景色。 | 以下是根據指令創作的一篇作文:<br><br>《一張舊照片》<br><br>在我塵封已久的家族相簿中,有一張特別吸引我的舊照片,那張照片記錄了我們家族成員在過往美好時光的歡聚,至今仍舊令人回味無窮。這張照片是我奶奶在二十多年前舉辦的一場家族聚會上所拍下的,照片中的人物包括了我的父母、祖父母、叔叔、姑姑和表哥等,大家臉上洋溢著幸福的笑容,彷彿時光靜止般地美好。<br><br>照片中的場景十分溫馨,大家圍坐在一張長方形的餐桌上,桌上擺滿了美味的食物和飲料。桌上的菜餚是傳統中式的佳餚,有香噴噴的烤全魚、嫩滑的雞肉和鮮甜的蔬菜,這些菜餚是當年奶奶親自烹調的,她手藝精湛,讓每個人都吃得津津有味。<br><br>最讓我印象深刻的是,照片中還拍到了我年幼時的模樣。我坐在桌子的另一端,手裡拿著一碗湯,臉上帶著滿足的笑容。那時的我才剛滿周歲,對於這場盛大的家族聚會還感到十分新奇。從這張照片中,我能感受到當年家族成員間的親密和溫暖,即使過了這麼多年,那份情感卻依然牢固地存在著。<br><br>這張照片背後有著動人的故事。在那個時代,我的祖父母和父母都還在讀中學,他們每天都會放學後到農田裡幫忙,辛勤地耕作以維持一家人的生計。儘管生活條件並不富裕,但他們仍舊保持著樂觀的態度和對生活的熱愛。每年到了秋天,只要收獲季節來臨,他們就會舉辦家族聚會,邀請所有親戚朋友前來共享豐收的喜悅。<br><br>隨著歲月的流逝,我逐漸長大,開始工作和生活。每次回鄉,我都會抽空去探望老人家,聽聽他們當年的往事,感受那段刻骨銘心的時光。而這張舊照片,也將一直陪伴著我,成為我珍貴回憶的一部分。它見證了我們的成長和變遷,也記錄下了那些難以忘懷的美好時刻。<br><br>這張照片不僅展示了家族的親情和溫暖,還折射出那個時代人們勤勞樸實的生活方式和對傳統的尊重。如今,隨著社會的快速發展,許多傳統的美德和風俗正在逐漸消失。我們應該好好珍惜這樣的回憶和文化,將它們傳承下去,讓後代子孫也能感受到那份來自歷史的溫情和傳承。<br><br>因此,我決定將這張照片好好保管起來,並常常拿出來看。它��僅是一張舊照片,更是一段寶貴的回憶和家族精神的象徵。我希望未來能有機會重現當年的盛況,再一次聚在一起,分享彼此的生活和故事,讓那份親情和友情繼續在時光中蔓延,永不消逝。 |
32
+ | 寫信 | 請以品牌經理的身份,給廣告公司的創意總監寫一封信,提出對於新產品廣告宣傳活動的創意建議。 | 尊敬的創意總監:<br><br>我寫這封信是為了向您提出一些關於我們新產品廣告宣傳活動的創意建議。我們公司即將推出一款全新的產品,為了確保它在市場上取得成功,我們希望透過一個引人注目的廣告宣傳活動來吸引消費者的注意。<br><br>在考慮廣告的創意和策略時,有幾個因素需要納入考量。首先,我們要針對目標客群進行研究,以瞭解他們的需求和喜好。其次,我們要確保廣告內容具有吸引力和說服力,能引起目標客群的共鳴。最後,我們要利用各種媒體平臺和數位行銷工具,以擴大廣告的影響力。<br><br>基於這些因素,我提出以下幾點創意建議:<br><br>1. 產品定位:我們可將這款新產品定位為高端、環保、健康和時尚的代表,強調其獨有的功能和特色。在廣告中,我們可以透過生動的視覺效果和簡潔的語言來傳達這些特點。<br>2. 故事行銷:在廣告中講述一個與產品功能相關的動人故事,讓消費者能更深入地瞭解產品所帶來的生活變化。例如,我們可以講述一位忙碌的職業婦女,如何使用我們的新產品在工作和生活中取得平衡的故事。<br>3. 名人效應:邀請一位受歡迎的公眾人物或意見領袖擔任產品代言人,利用他們的影響力來推廣產品。這不僅可以增加產品曝光度,還能讓更多消費者信任和信賴產品。<br>4. 跨界合作:與一些相關產業(如時尚、環保、健康等)進行跨界合作,共同推出限量版或聯名產品。這種合作不僅能吸引不同領域的消費者,還能為產品帶來更多話題性和收藏價值。<br>5. 數位行銷:充分利用社群媒體、搜尋引擎和電郵行銷等數位工具,在整個廣告宣傳過程中保持一致性的訊息和形象。我們也可製作一系列短視頻和線上活動,以增加消費者參與度和品牌忠誠度。<br>6. 創新形式:嘗試使用新穎的廣告形式,如AR(擴增實境)、VR(虛擬實境)和360度影片等,給消費者帶來全新的廣告體驗。這種創新形式不僅能吸引消費者目光,還能提高產品在市場上的辨識度。<br>7. 活動參與:在廣告宣傳活動中加入互動環節,如產品試用、抽獎和優惠券等,鼓勵消費者積極參與並分享他們的體驗。這將有助於口碑傳播,進一步擴大產品影響力。<br><br>綜合以上建議,我希望我們能製定出一套全面而富有創意的廣告宣傳活動計劃,以最大限度地提升新產品在市場上的競爭力。如果您有任何疑問或需要進一步討論,歡迎隨時與我聯絡。謝謝您的關注和支援!<br><br>祝商祺!<br><br>您的品牌經理<br><br>(註:此信件可根據實際情況和產品特點進行調整) |
33
+ | 摘要 | 請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。<br>為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。<br>經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。<br>財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。<br>至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。<br>財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業覺得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。<br>經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。<br>IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。<br>財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。<br>經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。 | 台灣「產業創新條例」的修正案,又稱「台版晶片法」,旨在支持半導體、電動車及5G技術領先企業的創新。新政策提供最高25%的所得稅抵免,企業需滿足當年度研發費用達一定規模、研發密度超過6%以及有效稅率達一定比率等條件。因應國際間對企業最低稅負制度的調整,台灣的門檻預計分別於2023年和2024年達到12%和15%。目前,與財政部討論後,確定100億元的設備投資抵免是可行的誘因,且研發費用門檻預計會在60至70億元之間。對於降低門檻的要求,經濟部和財政部已達成共識,旨在擴大受惠範圍並鼓勵企業投資以維持供應鏈的關鍵地位。此外,針對IC設計業者的訴求,也考慮調降門檻。預計此法案將在近期內實施,相關討論和調整將在預告期後進一步進行。 |
34
+ | 翻譯 | 以下提供英文內容,請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡以得天獨厚的地位,不斷精研的製作工藝著稱,風味獲諸多咖啡愛好者推崇。 |
35
+
36
+ # 使用說明
37
+ * 範例程式
38
+ * 範例程式與文件後續會釋出到github
39
+ * prompt 樣版
40
+ * 一般問答用法
41
+ ```
42
+ f"<s>[INST] {question} [/INST]"
43
+ ```
44
+ * 將 {question} 替換成使用者的輸入
45
+ * 加入 system prompt 的用法
46
+ ```
47
+ f"<s>[INST] <<SYS>>\n{sys}\n<</SYS>>\n\n{question} [/INST]"
48
+ ```
49
+ * 將 {sys} 替換成指令,例如:你是一個來自台灣的AI助理,你的名字是 TAIDE,樂於以台灣人的立場幫助使用者,會用繁體中文回答問題。
50
+ * 將 {question} 替換成使用者的問題
51
+ * 多輪問答用法
52
+ ```
53
+ f"<s>[INST] <<SYS>>\n{sys}\n<</SYS>>\n\n{question1} [/INST] {model_answer_1} </s><s>[INST] {question2} [/INST]"
54
+ ```
55
+ * 將 {sys} 替換成指令
56
+ * 將 {question1} 替換成使用者的問題1
57
+ * 將 {model_anwer_1} 替換成模型的回答1
58
+ * 將 {question2} 替換成使用者的問題2
59
+
60
+ # 訓練方法
61
+ * 軟硬體規格
62
+ * 國網中心 H100
63
+ * 訓練框架: PyTorch
64
+ * 資料前處理
65
+ * 字元標準化
66
+ * 去除重覆
67
+ * 去除雜訊
68
+ * 網頁資料的html tag、javascript
69
+ * 非標準字元或亂碼
70
+ * 字數過短的文章
71
+ * 去除文章中的特定格式,如為排版增加的換行
72
+ * 去除個資,如email、電話
73
+ * 去除不當文字,如賭博、色情等
74
+ * 擴充字元字詞
75
+ * 強化繁體中文輸入、輸出的效能,擴充資料包含下列2部分
76
+ * 從[教育部異體字字典正字表](https://dict.variants.moe.edu.tw/appendix.jsp?ID=1&ID=0)獲取中文字元
77
+ * 從繁中維基百科、新聞、中文common crawl資料抽取 500 萬條超過 100 個字元的句子(2.1G),訓練中文字詞的 tokenizer
78
+ * 持續預訓練 (continuous pretraining, CP)
79
+ * 補充大量來源可信賴的繁體中文知識
80
+ * 超參數 (hyper parameters)
81
+ * optimizer: AdamW
82
+ * learning rate: 1e-4
83
+ * batch size: 1M tokens
84
+ * epoch: 1
85
+ * 微調 (fine tune, FT)
86
+ * 讓模型可針對繁體中文提問回答問題
87
+ * 超參數 (hyper parameters)
88
+ * optimizer: AdamW
89
+ * learning rate: 5e-5
90
+ * batch size: 256K tokens
91
+ * epoch: 3
92
+
93
+ # 訓練資料
94
+ * 持續預訓練資料(資料量約為140G)
95
+ | 資料集 | 資料描述 |
96
+ | --- | -------- |
97
+ | 專利資料 | 《[中華民國專利](https://twpat2.tipo.gov.tw/twpatc/twpatkm)》為中華民國專利申請資料。 |
98
+ | 訴訟資料 | 《[司法院裁判書](https://judgment.judicial.gov.tw/FJUD/default.aspx)》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 |
99
+ | 中央社 | 《[中央社中文新聞](https://www.cna.com.tw/)》資料集含中央社自1993年6月至2023年06月,共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 |
100
+ | ETtoday 新聞雲 | 《[ET today新聞雲](https://www.ettoday.net/)》資料,包含自2011年10月至 2023年12月的資料。 |
101
+ | 立法院公報 | 《[立法院公報](https://ppg.ly.gov.tw/ppg/)》包含自第8屆第1會期至第10屆第7會期之公報資料。 |
102
+ | 出版商網站書籍介紹 | 包含[三采](https://www.suncolor.com.tw/)、[Gotop](https://www.gotop.com.tw/)出版商網站上的書籍簡介。 |
103
+ | GRB 研究計畫摘要 | [GRB](https://www.grb.gov.tw/)為收錄由政府經費補助之研究計畫及其成果報告的資訊系統,此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要,含中文及其英文對照。 |
104
+ | 學術會議論文摘要 | 收錄《[學術會議論文摘要資料庫](https://sticnet.stpi.narl.org.tw/sticloc/ttscalle?meet:)》中自1988至2009年由台灣所舉辦之學術會議論文。 |
105
+ | 光華雜誌 | 《[台灣光華雜誌](https://www.taiwan-panorama.com/)》含自1993年7月至2023年6月的文章,共30年份。內容著重於我國文化、觀光與民情等。 |
106
+ | 樂詞網 | 《[樂詞網](https://terms.naer.edu.tw/)》涵蓋文理領域約187萬則學術名詞及其譯名對照。 |
107
+ | 各部會資料 | 包含行政院「[國情簡介](https://www.ey.gov.tw/state/)」、文化部「[國家文化記憶庫](https://memory.culture.tw/)」、國發會「[檔案支援教學網](https://art.archives.gov.tw/index.aspx)」、交通部「[交通安全入口網](https://168.motc.gov.tw/)」等部會網站資料之部分資料。 |
108
+ | 今周刊 | 《[今周刊](https://www.businesstoday.com.tw/)》為一以財經為主的週刊雜誌,此資料集涵蓋ˋ2008年1月至2023年7月的文章。 |
109
+ | 教育部國語辭典、成語辭典 | 包含以下三項資料:<br>[教育部《成語典》](https://dict.idioms.moe.edu.tw/search.jsp?webMd=1&la=0),含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。<br>[教育部《重編國語辭典修訂本》](https://dict.revised.moe.edu.tw/?la=0&powerMode=0),收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。<br>[教育部《國語辭典簡編本》](https://dict.concised.moe.edu.tw/?la=0&powerMode=0),為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。 |
110
+ | 科技大觀園資料 | 含《[科技大觀園網站](https://scitechvista.nat.gov.tw/)》上的科學新知以及科普文章。 |
111
+ | iKnow 科技產業資訊室 | 《[科技產業資訊室](https://iknow.stpi.narl.org.tw/)(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自 2008 年至 2023 年。 |
112
+ | 科學發展月刊 | 《[科學發展月刊](https://ejournal.stpi.narl.org.tw/sd)》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月之科普文章;2021年起,以《[科技魅癮](https://www.charmingscitech.nat.gov.tw/)》季刊重新出發,提供國際關注科技議題的新知文章。 |
113
+ | 法規資料庫 | 《[法規資料庫](https://law.moj.gov.tw/)》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 |
114
+ | 各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 |
115
+ | 國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 |
116
+ | 中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 |
117
+ | 童話書 | 共 20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 |
118
+ | RedPajama-Data-V2 | 從國外開放多國語言語料庫 [RedPajama-Data-v2](https://github.com/togethercomputer/RedPajama-Data) 取出英文資料 |
119
+ | MathPile-commercial | 國外開放數學語料庫 [MathPile-commercial](https://huggingface.co/datasets/GAIR/MathPile_Commercial) |
120
+ | 中文維基百科 | 《[中文維基百科](https://zh.wikipedia.org/zh-tw/%E4%B8%AD%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91)》截至2023年1月所有條目的內容。 |
121
+ | github-code-clean | 為 github 開源程式碼資料集,去除unlicense的程式碼和文件。 |
122
+ * 微調資料
123
+ * TAIDE團隊訓練llama2系列模型來產生微調資料資料,產生的任務包含世界知識、創意寫作、普通常識、翻譯、摘要、程式、台灣價值等單輪或多輪對話問答共 128K 筆。微調資料後續會對外釋出。
124
+
125
+ # 模型評測
126
+ * taide-bench
127
+ * 評測資料
128
+ * 寫文章、寫信、摘要、英翻中、中翻英,共500題
129
+ * 資料連結: [taide-bench](https://huggingface.co/datasets/taide/taide-bench)
130
+ * 評測方法
131
+ * gpt4評分
132
+ * 評分程式: [taide-bench-eval](https://github.com/taide-taiwan/taide-bench-eval)
133
+ * 評測分數
134
+ | 模型 | 中翻英 | 英翻中 | 摘要 | 寫文章 | 寫信 | 平均 |
135
+ | --- | ----- | ----- | ---- | ---- | ---- | --- |
136
+ | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
137
+ | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
138
+ | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
139
+ | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
140
+ | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |
141
+
142
+ # 授權條款
143
+ * [TAIDE L 類模型社群授權同意書](https://drive.google.com/file/d/1FcUZjbUH6jr4xoCyAronN_slLgcdhEUd/view?usp=drive_link)
144
+
145
+ # 免責聲明
146
+ * LLM 模型由於設計架構的限制,以及資料難免有偏誤,語言模型的任何回應不代表 TAIDE 立場,使用前需要額外加入安全防護機制,且回應內容也可能包含不正確的資訊,使用者請勿盡信。
147
+
148
+ # 開發團隊
149
+ * [https://taide.tw/index/teamList](https://taide.tw/index/teamList)
150
+
151
+ # 相關連結
152
+ * [TAIDE官網](https://taide.tw/index)
153
+ * [TAIDE Huggingface](https://huggingface.co/taide)
154
+ * [TAIDE Github](https://github.com/taide-taiwan)
155
+ * [Kuwa AI](https://kuwaai.org/)
156
+
157
+ # Citation
158
+ * [TAIDE官網](https://taide.tw/index)
159
+
README_en.md ADDED
@@ -0,0 +1,155 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ {}
3
+ ---
4
+ * [中文版](./README.md)
5
+
6
+ # Introduction
7
+ * The [TAIDE project](https://taide.tw/index) aims to develop a generative AI dialogue engine model that is tailored to the linguistic and cultural characteristics of Taiwan, while also establishing a trustworthy AI environment. By combining academic, industrial, and research resources, the project seeks to advance the development of trustworthy generative AI, enhancing Taiwan's international competitiveness, promoting industrial development, and reducing dependence on foreign technologies.
8
+ * The large language models developed in this project are based on Meta's [LLaMA2-7b](https://huggingface.co/meta-llama/Llama-2-7b-hf) release, incorporating text and training materials from various fields in Taiwan to enhance the model's ability to respond in Traditional Chinese and perform well in specific tasks. The publicly released models are as follows:
9
+ * [TAIDE-LX-7B](https://huggingface.co/taide/TAIDE-LX-7B): This model is a continuous pretrained version with Traditional Chinese data based on LLaMA2-7b. It is suitable for scenarios where users intend to further fine-tune the model. Since the pre-trained model has not undergone fine-tuning and preference alignment, it may produce malicious or unsafe outputs. Please use with caution.
10
+ * [TAIDE-LX-7B-Chat](https://huggingface.co/taide/TAIDE-LX-7B-Chat): This model enhances office-related tasks and multi-turn question-and-answer dialogue capabilities through instruction tuning based on TAIDE-LX-7B. It is suitable for scenarios such as chat conversations or task assistance. TAIDE-LX-7B-Chat also provides a [4-bit quantization model](https://huggingface.co/taide/TAIDE-LX-7B-Chat-4bit). The quantization model is primarily offered for user convenience but may affect performance and introduce unforeseen issues. Users are advised to understand and take note of this.
11
+
12
+ # Model Parameters
13
+ * Parameters: 7B
14
+ * Max context length: 4K
15
+ * Training token in Traditional Chinese: 41.44B
16
+ * Training time: 1531.82 H100 GPU Hours
17
+
18
+ # Features
19
+ * Expanding the character and word count by 24,720 to enhance the model's ability to process Traditional Chinese.
20
+ * Strictly vetting training data for the model to improve its trustworthiness and applicability.
21
+ * Enhancing the model's performance for tasks such as summarization, writing articles, writing letters, and translating between Chinese and English, which are commonly used in office settings.
22
+ * Strengthening the model's understanding of Taiwan-specific culture, terminology, and context.
23
+ * Equip the model with multi-turn conversation capabilities.
24
+
25
+ # Examples
26
+ | Task | User input | Model output |
27
+ | --- | -------- | ------- |
28
+ | Writing articles | 請以以下內容為基礎,寫一篇文章:撰寫一篇作文,題目為《一張舊照片》,內容要求為:選擇一張令你印象深刻的照片,說明令你印象深刻的原因,並描述照片中的影像及背後的故事。記錄成長的過程、與他人的情景、環境變遷和美麗的景色。 | 以下是根據指令創作的一篇作文:<br><br>《一張舊照片》<br><br>在我塵封已久的家族相簿中,有一張特別吸引我的舊照片,那張照片記錄了我們家族成員在過往美好時光的歡聚,至今仍舊令人回味無窮。這張照片是我奶奶在二十多年前舉辦的一場家族聚會上所拍下的,照片中的人物包括了我的父母、祖父母、叔叔、姑姑和表哥等,大家臉上洋溢著幸福的笑容,彷彿時光靜止般地美好。<br><br>照片中的場景十分溫馨,大家圍坐在一張長方形的餐桌上,桌上擺滿了美味的食物和飲料。桌上的菜餚是傳統中式的佳餚,有香噴噴的烤全魚、嫩滑的雞肉和鮮甜的蔬菜,這些菜餚是當年奶奶親自烹調的,她手藝精湛,讓每個人都吃得津津有味。<br><br>最讓我印象深刻的是,照片中還拍到了我年幼時的模樣。我坐在桌子的另一端,手裡拿著一碗湯,臉上帶著滿足的笑容。那時的我才剛滿周歲,對於這場盛大的家族聚會還感到十分新奇。從這張照片中,我能感受到當年家族成員間的親密和溫暖,即使過了這麼多年,那份情感卻依然牢固地存在著。<br><br>這張照片背後有著動人的故事。在那個時代,我的祖父母和父母都還在讀中學,他們每天都會放學後到農田裡幫忙,辛勤地耕作以維持一家人的生計。儘管生活條件並不富裕,但他們仍舊保持著樂觀的態度和對生活的熱愛。每年到了秋天,只要收獲季節來臨,他們就會舉辦家族聚會,邀請所有親戚朋友前來共享豐收的喜悅。<br><br>隨著歲月的流逝,我逐漸長大,開始工作和生活。每次回鄉,我都會抽空去探望老人家,聽聽他們當年的往事,感受那段刻骨銘心的時光。而這張舊照片,也將一直陪伴著我,成為我珍貴回憶的一部分。它見證了我們的成長和變遷,也記錄下了那些難以忘懷的美���時刻。<br><br>這張照片不僅展示了家族的親情和溫暖,還折射出那個時代人們勤勞樸實的生活方式和對傳統的尊重。如今,隨著社會的快速發展,許多傳統的美德和風俗正在逐漸消失。我們應該好好珍惜這樣的回憶和文化,將它們傳承下去,讓後代子孫也能感受到那份來自歷史的溫情和傳承。<br><br>因此,我決定將這張照片好好保管起來,並常常拿出來看。它不僅是一張舊照片,更是一段寶貴的回憶和家族精神的象徵。我希望未來能有機會重現當年的盛況,再一次聚在一起,分享彼此的生活和故事,讓那份親情和友情繼續在時光中蔓延,永不消逝。 |
29
+ | Writing letters | 請以品牌經理的身份,給廣告公司的創意總監寫一封信,提出對於新產品廣告宣傳活動的創意建議。 | 尊敬的創意總監:<br><br>我寫這封信是為了向您提出一些關於我們新產品廣告宣傳活動的創意建議。我們公司即將推出一款全新的產品,為了確保它在市場上取得成功,我們希望透過一個引人注目的廣告宣傳活動來吸引消費者的注意。<br><br>在考慮廣告的創意和策略時,有幾個因素需要納入考量。首先,我們要針對目標客群進行研究,以瞭解他們的需求和喜好。其次,我們要確保廣告內容具有吸引力和說服力,能引起目標客群的共鳴。最後,我們要利用各種媒體平臺和數位行銷工具,以擴大廣告的影響力。<br><br>基於這些因素,我提出以下幾點創意建議:<br><br>1. 產品定位:我們可將這款新產品定位為高端、環保、健康和時尚的代表,強調其獨有的功能和特色。在廣告中,我們可以透過生動的視覺效果和簡潔的語言來傳達這些特點。<br>2. 故事行銷:在廣告中講述一個與產品功能相關的動人故事,讓消費者能更深入地瞭解產品所帶來的生活變化。例如,我們可以講述一位忙碌的職業婦女,如何使用我們的新產品在工作和生活中取得平衡的故事。<br>3. 名人效應:邀請一位受歡迎的公眾人物或意見領袖擔任產品代言人,利用他們的影響力來推廣產品。這不僅可以增加產品曝光度,還能讓更多消費者信任和信賴產品。<br>4. 跨界合作:與一些相關產業(如時尚、環保、健康等)進行跨界合作,共同推出限量版或聯名產品。這種合作不僅能吸引不同領域的消費者,還能為產品帶來更多話題性和收藏價值。<br>5. 數位行銷:充分利用社群媒體、搜尋引擎和電郵行銷等數位工具,在整個廣告宣傳過程中保持一致性的訊息和形象。我們也可製作一系列短視頻和線上活動,以增加消費者參與度和品牌忠誠度。<br>6. 創新形式:嘗試使用新穎的廣告形式,如AR(擴增實境)、VR(虛擬實境)和360度影片等,給消費者帶來全新的廣告體驗。這種創新形式不僅能吸引消費者目光,還能提高產品在市場上的辨識度。<br>7. 活動參與:在廣告宣傳活動中加入互動環節,如產品試用、抽獎和優惠券等,鼓勵消費者積極參與並分享他們的體驗。這將有助於口碑傳播,進一步擴大產品影響力。<br><br>綜合以上建議,我希望我們能製定出一套全面而富有創意的廣告宣傳活動計劃,以最大限度地提升新產品在市場上的競爭力。如果您有任何疑問或需要進一步討論,歡迎隨時與我聯絡。謝謝您的關注和支援!<br><br>祝商祺!<br><br>您的品牌經理<br><br>(註:此信件可根據實際情況和產品特點進行調整) |
30
+ | Summarization | 請將這篇文章精簡條理化:「產業創新條例第10條之2及第72條條文修正案」俗稱「台版晶片法」,針對半導體、電動車、5G等技術創新且居國際供應鏈關鍵地位公司,提供最高25%營所稅投抵優惠,企業適用要件包含當年度研發費用、研發密度達一定規模,且有效稅率達一定比率。<br>為因應經濟合作暨發展組織(OECD)國家最低稅負制調整,其中有效稅率門檻,民國112年訂為12%,113年料將提高至15%,但仍得審酌國際間最低稅負制實施情形。<br>經濟部官員表示,已和財政部協商進入最後階段,除企業研發密度訂在6%,目前已確認,企業購置先進製程的設備投資金額達100億元以上可抵減。<br>財政部官員表示,研商過程中,針對台灣產業與其在國際間類似的公司進行深入研究,在設備部分,畢竟適用產創10之2的業者是代表台灣隊打「國際盃」,投入金額不達100億元,可能也打不了。<br>至於備受關注的研發費用門檻,經濟部官員表示,歷經與財政部來回密切討論,研發費用門檻有望落在60億至70億元之間。<br>財政部官員指出,研發攸關台灣未來經濟成長動能,門檻不能「高不可攀」,起初雖設定在100億元,之所以會調降,正是盼讓企業���得有辦法達得到門檻、進而適用租稅優惠,才有動力繼續投入研發,維持國際供應鏈關鍵地位。<br>經濟部官員表示,因廠商研發費用平均為30、40億元,其中,IC設計業者介於30億至60億元範圍,若將門檻訂在100億元,符合條件的業者較少、刺激誘因不足;此外,若符合申請門檻的業者增加,將可提高企業在台投資金額,財政部稅收也能因此獲得挹注。<br>IC設計業者近日頻頻針對產創10之2發聲,希望降低適用門檻,加上各國力拚供應鏈自主化、加碼補助半導體產業,經濟部官員表示,經濟部和財政部就產創10之2達成共識,爭取讓更多業者受惠,盼增強企業投資力道及鞏固台灣技術地位。<br>財政部官員表示,租稅獎勵的制定必須「有為有守」,並以達到獎勵設置目的為最高原則,現階段在打「國內盃」的企業仍可適用產創第10條、10之1的租稅優惠,共同壯大台灣經濟發展。<br>經濟部和財政部正就研發費用門檻做最後確認,待今明兩天預告子法之後,約有30天時間,可與業界進一步討論及調整,盼產創10之2能在6月上路。 | 台灣「產業創新條例」的修正案,又稱「台版晶片法」,旨在支持半導體、電動車及5G技術領先企業的創新。新政策提供最高25%的所得稅抵免,企業需滿足當年度研發費用達一定規模、研發密度超過6%以及有效稅率達一定比率等條件。因應國際間對企業最低稅負制度的調整,台灣的門檻預計分別於2023年和2024年達到12%和15%。目前,與財政部討論後,確定100億元的設備投資抵免是可行的誘因,且研發費用門檻預計會在60至70億元之間。對於降低門檻的要求,經濟部和財政部已達成共識,旨在擴大受惠範圍並鼓勵企業投資以維持供應鏈的關鍵地位。此外,針對IC設計業者的訴求,也考慮調降門檻。預計此法案將在近期內實施,相關討論和調整將在預告期後進一步進行。 |
31
+ | Translation | 以下提供英文內容,請幫我翻譯成中文。Dongshan coffee is famous for its unique position, and the constant refinement of production methods. The flavor is admired by many caffeine afficionados. | 東山咖啡以得天獨厚的地位,不斷精研的製作工藝著稱,風味獲諸多咖啡愛好者推崇。 |
32
+
33
+ # Usage
34
+ * Sample code
35
+ * The sample code and documentation will be released on GitHub later.
36
+ * Prompt template
37
+ * Normal QA
38
+ ```
39
+ f"<s>[INST] {question} [/INST]"
40
+ ```
41
+ * Replace {question} with user input
42
+ * QA with system prompt
43
+ ```
44
+ f"<s>[INST] <<SYS>>\n{sys}\n<</SYS>>\n\n{question} [/INST]"
45
+ ```
46
+ * Replace {sys} with system prompt,ex:你是一個來自台灣的AI助理,你的名字是 TAIDE,樂於以台灣人的立場幫助使用者,會用繁體中文回答問題。
47
+ * Replace {question} as user input
48
+ * Multi turns conversation
49
+ ```
50
+ f"<s>[INST] <<SYS>>\n{sys}\n<</SYS>>\n\n{question1} [/INST] {model_answer_1} </s><s>[INST] {question2} [/INST]"
51
+ ```
52
+ * Replace {sys} with system prompt
53
+ * Replace {question1} with user input 1
54
+ * Replace {model_anwer_1} with model response 1
55
+ * Replace {question2} with user input 2
56
+
57
+ # Training methods
58
+ * Software / hardware spec
59
+ * GPU: H100
60
+ * Training Framework: PyTorch
61
+ * Data preprocessing
62
+ * Character normalization
63
+ * Deduplication
64
+ * Denoise
65
+ * Html tag、javascript in web content
66
+ * Non-standard characters or garbage characters
67
+ * Posts with an insufficient number of characters
68
+ * Removing specific formats such as extra line breaks added for formatting purposes
69
+ * Removing personal information such as emails and phone numbers.
70
+ * Remove inappropriate content such as gambling, pornography, etc..
71
+ * Character and word expanding
72
+ * Enhancing the performance of Traditional Chinese input and output, the expanded data include the following two parts:
73
+ * Obtaining Chinese characters from the Ministry of Education's ["Variant Chinese Characters Dictionary" and "Corrected Characters Table"](https://dict.variants.moe.edu.tw/appendix.jsp?ID=1&ID=0).
74
+ * Collecting over 5,000,000 sentences with more than 100 characters each from the Traditional Chinese Wikipedia, news articles, and the Chinese Common Crawl data (2.1G), used to train the tokenizer for Chinese characters and words.
75
+ * Continuous pretraining (CP)
76
+ * Supplementing the model with a large amount of reliable Traditional Chinese knowledge.
77
+ * Hyper parameters
78
+ * optimizer: AdamW
79
+ * learning rate: 1e-4
80
+ * batch size: 1M tokens
81
+ * epoch: 1
82
+ * Fine tune (FT)
83
+ * Enabling the model to answer questions in Traditional Chinese.
84
+ * Hyper parameters
85
+ * optimizer: AdamW
86
+ * learning rate: 5e-5
87
+ * batch size: 256K tokens
88
+ * epoch: 3
89
+
90
+ # Training Data
91
+ * Continuous pre-training data (about 140GB)
92
+ | Dataset | Description |
93
+ | --- | -------- |
94
+ | Patent data | [Full-text patent data from the Republic of China](https://twpat2.tipo.gov.tw/twpatc/twpatkm). |
95
+ | Litigation Data | [Civil litigation data](https://judgment.judicial.gov.tw/FJUD/default.aspx) from various levels of courts in the judicial rulings, including data from 2013/01 to 2023/12. |
96
+ | CNA news | The [CNA news](https://www.cna.com.tw/) includes daily news articles from June 1993 to June 2023, spanning a period of 30 years. The content covers various domains such as domestic and international politics, society, economy, culture, education, and lifestyle. |
97
+ | ETtoday news | [ETToday news](https://www.ettoday.net/) data, including data from 2011/10 to 2023/12. |
98
+ | Legislative Yuan Gazette | The [Legislative Yuan Gazette](https://ppg.ly.gov.tw/ppg/) contains data from the 1st session of the 8th term to the 7th session of the 10th term. |
99
+ | Publisher Website Book Introduction | Includes book introduction data from the websites of [SunColor](https://www.suncolor.com.tw/), [Gotop](https://www.gotop.com.tw/) publishers. |
100
+ | Abstracts of GRB research projects | [GRB](https://www.grb.gov.tw/) is an information system that compiles research projects funded by government grants and their outcome reports. This dataset primarily includes research project abstracts from 1993 to 2023, including both Chinese and their English counterparts. |
101
+ | Academic conference proceedings abstracts | The [database](https://sticnet.stpi.narl.org.tw/sticloc/ttscalle?meet:) contains academic conference proceedings held in Taiwan from 1988 to 2009. |
102
+ | Taiwan Panorama magazine | [Taiwan Panorama magazine](https://www.taiwan-panorama.com/) contains articles from July 1993 to June 2023, spanning 30 years. The content focuses on Taiwanese culture, tourism, and local customs. |
103
+ | 樂詞網 | 《[樂詞網](https://terms.naer.edu.tw/)》covers approximately 187,000 academic terms in the humanities and social sciences, along with their translations. |
104
+ | Data from various ministries and commissions | Including partial data from government department websites such as the Executive Yuan's "[National Overview](https://www.ey.gov.tw/state/)", the Ministry of Culture's "[National Cultural Memory Bank](https://memory.culture.tw/)", the National Development Council's "[Archives Support Teaching Network](https://art.archives.gov.tw/index.aspx)", the Ministry of Transportation's "[Traffic Safety Portal](https://168.motc.gov.tw/)", etc. |
105
+ | Business Today | [Business Today](https://www.businesstoday.com.tw/) Magazine is a weekly magazine focused on finance. The dataset includes articles from 2008/01 to 2023/07. |
106
+ | Mandarin and idiom dictionary from the Ministry of Education | Dataset including:<br>[Idiom Dictionary](https://dict.idioms.moe.edu.tw/search.jsp?webMd=1&la=0): Contains 5,338 idioms, including definitions, original stories, usage explanations, and example sentences.<br>[Revised Mandarin Dictionary](https://dict.revised.moe.edu.tw/?la=0&powerMode=0): contains Chinese words and various vocabulary, including pronunciation, radicals, definitions, and other information, totaling approximately 165,539 entries.<br>[Concise Mandarin Dictionary](https://dict.concised.moe.edu.tw/?la=0&powerMode=0): is a condensed version of the "Revised Mandarin Dictionary", containing a total of 45,247 entries. |
107
+ | SCITechVista | The dataset includes science news and popular science articles from the [SCITechVista](https://scitechvista.nat.gov.tw/) website. |
108
+ | iKnow | The [iKnow](https://iknow.stpi.narl.org.tw/) platform provides information on market trends, strategic analysis, patent knowledge, and technology transaction information for Taiwan and the global technology industry. The dataset includes data from 2005/01 to 2023/07. |
109
+ | Science Development Monthly Magazine | [Science Development Monthly Magazine](https://ejournal.stpi.narl.org.tw/sd) is a popular science publication published by the National Science Council (NSC) to promote science education. It includes articles from 2004/10 to 2020/12. In 2021, the magazine was relaunched as "[CharmingSCITech](https://www.charmingscitech.nat.gov.tw/)" quarterly, providing new knowledge on international technology issues. |
110
+ | Legislation Database | The [Legislation Database](https://law.moj.gov.tw/) includes the latest central regulations, rules, draft bills, and local regulations issued by government agencies as of 2023/10. |
111
+ | Local Government Tourism Websites | Covering partial data from tourism websites of local government counties and cities in Taiwan. |
112
+ | Curriculum Guidelines from the National Institute of Education | The dataset includes curriculum guidelines for different subjects at various levels of education. |
113
+ | CNA's English and Chinese Name Translation Database | The English and Chinese Name Translation Database of the Central News Agency (CNA) collects translations of foreign and Chinese surnames, personal names, organizations, and place names used in news. |
114
+ | Fairy tales | A total of 20 fairy tale books, including "Tom Sawyer," "Peter Pan," "Alice's Adventures in Wonderland," "Uncle Long Legs," and more. |
115
+ | RedPajama-Data-V2 | Extracting English data from the [RedPajama-Data-v2](https://github.com/togethercomputer/RedPajama-Data) multilingual dataset |
116
+ | MathPile-commercial | A mathematics-focused dataset obtained from [MathPile-commercial](https://huggingface.co/datasets/GAIR/MathPile_Commercial) |
117
+ | Traditional Chinese Wikipedia Articles | The content of all articles in [Traditional Chinese Wikipedia](https://zh.wikipedia.org/zh-tw/%E4%B8%AD%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91), up to January 2023. |
118
+ | github-code-clean | An open-source code dataset on GitHub. After removing unlicensed code and documents. |
119
+ * Fine tune data
120
+ * The TAIDE team trains the LLaMA2 series models to generate fine-tuning data, which generates single or multi-turn conversations on topics such as world knowledge, creative writing, general knowledge, translation, summarization, programming, and Taiwanese values. The fine tune data consists of 128K prompt-response pairs and will be released publicly later.
121
+
122
+ # Evaluation
123
+ * taide-bench
124
+ * Data
125
+ * Tasks include writing articles, writing letters, summarizing articles, translating from English to Traditional Chinese, translating from Traditional Chinese to English. There are 500 questions in total.
126
+ * data link: [taide-bench](https://huggingface.co/datasets/taide/taide-bench)
127
+ * Evaluation method
128
+ * LLM as a Judge by GPT4
129
+ * code link: [taide-bench-eval](https://github.com/taide-taiwan/taide-bench-eval)
130
+ * Scores
131
+ | Model | Translating from Traditional Chinese to English | Translating from English to Traditional Chinese | Summerization | Writing articles | Writing letters | Average |
132
+ | --- | ----- | ----- | ---- | ---- | ---- | --- |
133
+ | TAIDE-LX-7B-Chat | 7.165 | 7.685 | 7.720 | 9.635 | 9.110 | 8.263 |
134
+ | GPT3.5 | 8.880 | 8.810 | 7.450 | 9.490 | 8.750 | 8.676 |
135
+ | LLAMA2 7B | 6.075 | 4.475 | 5.905 | 2.625 | 3.040 | 4.424 |
136
+ | LLAMA2 13B | 6.480 | 6.135 | 6.110 | 2.565 | 3.000 | 4.858 |
137
+ | LLAMA2 70B | 6.975 | 6.375 | 6.795 | 2.625 | 2.990 | 5.152 |
138
+
139
+ # License
140
+ * [TAIDE L Models Community License Agreement](https://drive.google.com/file/d/1FcUZjbUH6jr4xoCyAronN_slLgcdhEUd/view)
141
+
142
+ # Disclaimer
143
+ * Due to limitations in its design architecture and the inevitable biases in data, any response from the LLM model does not represent the stance of TAIDE. Additional security measures should be implemented before use, and responses may also contain incorrect information. Users are advised not to fully trust the responses.
144
+
145
+ # Development Team
146
+ * [https://taide.tw/index/teamList](https://taide.tw/index/teamList)
147
+
148
+ # Useful links
149
+ * [TAIDE official website](https://taide.tw/index)
150
+ * [TAIDE Huggingface](https://huggingface.co/taide)
151
+ * [TAIDE Github](https://github.com/taide-taiwan)
152
+ * [Kuwa AI](https://kuwaai.org/)
153
+
154
+ # Citation
155
+ * [TAIDE official website](https://taide.tw/index)