OpenAssistant
/

falcon-40b-sft-top1-560

Text Generation

text-generation-inference

Model card Files Files and versions Community

falcon-40b-sft-top1-560 / README.md

andreaskoepf's picture

Update README.md

1182ca8 about 1 year ago

|

1.08 kB

	---
	license: apache-2.0
	---

	Preliminary info during eval. Model card will be updated.

	wandb: wandb: https://wandb.ai/open-assistant/supervised-finetuning/runs/3lr77x4h
	export: 560 steps


	Model:
	```
	falcon-40b:
	dtype: bf16
	log_dir: "falcon_log_40b"
	learning_rate: 5e-6
	model_name: "tiiuae/falcon-40b"
	deepspeed_config: configs/zero3_config_falcon.json
	output_dir: falcon
	weight_decay: 0.0
	max_length: 2048
	warmup_steps: 20
	gradient_checkpointing: true
	gradient_accumulation_steps: 1
	per_device_train_batch_size: 18
	per_device_eval_batch_size: 10
	eval_steps: 80
	save_steps: 80
	num_train_epochs: 8
	save_total_limit: 4
	use_flash_attention: false
	residual_dropout: 0.3
	residual_dropout_lima: true
	sort_by_length: false
	save_strategy: steps
	```

	Dataset:
	```
	oasst_only:
	save_strategy: epoch
	datasets:
	- oasst_export:
	lang: "bg,ca,cs,da,de,en,es,fr,hr,hu,it,nl,pl,pt,ro,ru,sl,sr,sv,uk"
	input_file_path: 2023-04-04_oasst_ready.jsonl.gz
	val_split: 0.05
	sort_by_length: false
	use_custom_sampler: false
	```