OpenAssistant
/

falcon-7b-sft-top1-696

Text Generation

RefinedWebModel

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

andreaskoepf commited on Jun 5, 2023

Commit

8cd2153

·

1 Parent(s): cf0da05

Update README.md

Files changed (1) hide show

README.md +42 -0

README.md CHANGED Viewed

@@ -8,8 +8,50 @@ license: apache-2.0
 Model:
 ```
 ```
 Dataset:
 ```
 ```

 Model:
 ```
+falcon-7b:
+  dtype: bf16
+  log_dir: "falcon_log_7b"
+  learning_rate: 1e-5
+  model_name: "tiiuae/falcon-7b"
+  deepspeed_config: configs/zero_config.json
+  output_dir: falcon
+  weight_decay: 0.0
+  max_length: 2048
+  warmup_steps: 20
+  gradient_checkpointing: true
+  gradient_accumulation_steps: 4
+  per_device_train_batch_size: 4
+  per_device_eval_batch_size: 8
+  eval_steps: 100
+  save_steps: 500
+  save_strategy: steps
+  num_train_epochs: 8
+  save_total_limit: 4
+  residual_dropout: 0.2
+  residual_dropout_lima: true
 ```
 Dataset:
 ```
+oasst-top1:
+  # oasst_export: 11123 (100.00%)
+  save_strategy: steps
+  eval_steps: 80
+  save_steps: 80
+  datasets:
+    - oasst_export:
+        lang: "bg,ca,cs,da,de,en,es,fr,hr,hu,it,nl,pl,pt,ro,ru,sl,sr,sv,uk" # sft-8.0
+        input_file_path: 2023-06-02_oasst_all_labels.jsonl.gz
+        val_split: 0.05
+        top_k: 1
 ```
+Train command:
+```
+deepspeed trainer_sft.py --configs defaults falcon-7b oasst-top1 --cache_dir <data_cache_dir> --output_dir <output_path> --deepspeed
+```
+Export command:
+```
+python export_model.py --dtype bf16 --hf_repo_name OpenAssistant/falcon-7b-sft-top1 --trust_remote_code --auth_token <auth_token> <output_path> --max_shard_size 2GB
+```