yhavinga commited on
Commit
076a17b
1 Parent(s): 0723934

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +25 -7
README.md CHANGED
@@ -106,12 +106,12 @@ bijvoorbeeld nooit een fragment krijgen dat begint met een paar tokens van het e
106
 
107
  ## Pre-training
108
 
109
- Boreas was pre-trained with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
110
  kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
111
- Batch size 96
112
- Using flash attention, block size of 512
113
- Max sequence length of 2048
114
- LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipping to 1.0
115
 
116
  ![img_3.png](images/img_3.png)
117
 
@@ -119,7 +119,7 @@ LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipp
119
 
120
  ![img_5.png](images/img_5.png)
121
 
122
- Meer info [https://wandb.ai/yepster/EasyDeL-MistralBoreas/runs/ozw55qaq/workspace?nw=nwuseryepster](WandB Boreas 7B pre-train)
123
 
124
 
125
  ## Boreas-7B-chat
@@ -161,4 +161,22 @@ het Nederlands geschreven zijn door een persoon. Dit zijn de Nederlandse wiki q
161
  chat datasets. Hierdoor wordt er zoveel mogelijk voor gezorgd dat bij bijvoorbeeld educatie-achtige q en a, de in onze
162
  regio gebruikelijke termen en eenheden voorkomen in de chat database, tenminste voor de Nederlandstalige chats.
163
 
164
- Bij alle chat datasets is er alleen getraind op de assistant-completion tokens.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
106
 
107
  ## Pre-training
108
 
109
+ * Boreas was pre-trained with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
110
  kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
111
+ * Batch size 96, gradient accumulation steps 2
112
+ * Using flash attention, block size of 512
113
+ * Max sequence length of 2048
114
+ * LION optimizer, triangle learning rate schedule with max lr 3e-6, gradient clipping to 1.0
115
 
116
  ![img_3.png](images/img_3.png)
117
 
 
119
 
120
  ![img_5.png](images/img_5.png)
121
 
122
+ <!-- [https://wandb.ai/yepster/EasyDeL-MistralBoreas/runs/ozw55qaq/workspace?nw=nwuseryepster](WandB Boreas 7B pre-train) -->
123
 
124
 
125
  ## Boreas-7B-chat
 
161
  chat datasets. Hierdoor wordt er zoveel mogelijk voor gezorgd dat bij bijvoorbeeld educatie-achtige q en a, de in onze
162
  regio gebruikelijke termen en eenheden voorkomen in de chat database, tenminste voor de Nederlandstalige chats.
163
 
164
+ Bij alle chat datasets is er alleen getraind op de assistant-completion tokens.
165
+
166
+ ## Fine-tuning
167
+
168
+ * Boreas was fine-tuned with the [EasyDeL JAX framework](https://github.com/erfanzar/EasyDel) on a tpu-v4-32
169
+ kindly supplied by the Google [TPU Research Cloud](https://sites.research.google/trc/about/).
170
+ * Batch size 96, gradient accumulation 2,
171
+ * Using flash attention, block size of 512
172
+ * Max sequence length of 2048
173
+ * LION optimizer, triangle learning rate schedule with max lr 2e-6, gradient clipping to 1.0 (NB: the schedule was not finished due to an error at the end of the dataset epoch. Since the loss had plateaued I decided then to not resume for another epoch)
174
+
175
+
176
+ ![loss finetune](images/loss_finetune.png)
177
+
178
+ ![accuracy finetune](images/accuracy_finetune.png)
179
+
180
+ ![learning rate finetune](images/lr_finetune.png)
181
+
182
+ <!-- [https://wandb.ai/yepster/EasyDeL-MistralBoreas/runs/ynkl2jtx?nw=nwuseryepster](WandB Boreas 7B chat finetune) -->