Graphcore
/

gpt2-medium-wikitext-103

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Jinchen commited on Mar 23, 2022

Commit

a77da42

•

1 Parent(s): 710a54e

Update README.md

Files changed (1) hide show

README.md +29 -0

README.md CHANGED Viewed

@@ -31,6 +31,35 @@ More information needed
 ## Training procedure
 ### Training hyperparameters
 The following hyperparameters were used during training:

 ## Training procedure
+Trained on 16 Graphcore Mk2 IPUs using [optimum-graphcore](https://github.com/huggingface/optimum-graphcore).
+Command line:
+```
+python examples/language-modeling/run_clm.py \
+  --model_name_or_path gpt2-medium \
+  --ipu_config_name Graphcore/gpt2-medium-ipu \
+  --dataset_name wikitext \
+  --dataset_config_name wikitext-103-raw-v1 \
+  --do_train \
+  --do_eval \
+  --num_train_epochs 10 \
+  --dataloader_num_workers 64 \
+  --per_device_train_batch_size 1 \
+  --per_device_eval_batch_size 1 \
+  --gradient_accumulation_steps 256 \
+  --output_dir /tmp/clm_output_medium \
+  --logging_steps 5 \
+  --learning_rate 1e-5 \
+  --lr_scheduler_type linear \
+  --loss_scaling 16384 \
+  --weight_decay 0.01 \
+  --warmup_ratio 0.1 \
+  --ipu_config_overrides="embedding_serialization_factor=5,inference_device_iterations=9,replication_factor=2,inference_replication_factor=2,ipus_per_replica=8,layers_per_ipu=[0 3 3 3 3 4 4 4],matmul_proportion=0.25" \
+  --dataloader_drop_last \
+  --pod_type pod16
+```
 ### Training hyperparameters
 The following hyperparameters were used during training: