Graphcore
/

lxmert-vqa-uncased

Question Answering

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Jinchen commited on Mar 25, 2022

Commit

79fcabb

•

1 Parent(s): 91a58cf

Update README.md

Files changed (1) hide show

README.md +22 -14

README.md CHANGED Viewed

@@ -50,27 +50,25 @@ Trained on 16 Graphcore Mk2 IPUs using [optimum-graphcore](https://github.com/hu
 Command line:
 ```
-python examples/language-modeling/run_clm.py \
-  --model_name_or_path gpt2 \
-  --ipu_config_name Graphcore/gpt2-small-ipu \
-  --dataset_name wikitext \
-  --dataset_config_name wikitext-103-raw-v1 \
   --do_train \
   --do_eval \
-  --num_train_epochs 10 \
-  --dataloader_num_workers 64 \
   --per_device_train_batch_size 1 \
-  --per_device_eval_batch_size 1 \
-  --gradient_accumulation_steps 128 \
-  --output_dir /tmp/clm_output \
   --logging_steps 5 \
-  --learning_rate 1e-5 \
   --lr_scheduler_type linear \
   --loss_scaling 16384 \
   --weight_decay 0.01 \
   --warmup_ratio 0.1 \
-  --ipu_config_overrides="embedding_serialization_factor=4,optimizer_state_offchip=true,inference_device_iterations=5" \
   --dataloader_drop_last \
   --pod_type pod16
 ```
@@ -91,8 +89,18 @@ The following hyperparameters were used during training:
 - training precision: Mixed Precision
 ### Training results
 ### Framework versions

 Command line:
 ```
+python examples/question-answering/run_vqa.py \
+  --model_name_or_path unc-nlp/lxmert-base-uncased \
+  --ipu_config_name Graphcore/lxmert-base-ipu \
+  --dataset_name Graphcore/vqa-lxmert \
   --do_train \
   --do_eval \
+  --max_seq_length 512 \
   --per_device_train_batch_size 1 \
+  --num_train_epochs 4 \
+  --dataloader_num_workers 64 \
   --logging_steps 5 \
+  --learning_rate 5e-5 \
   --lr_scheduler_type linear \
   --loss_scaling 16384 \
   --weight_decay 0.01 \
   --warmup_ratio 0.1 \
+  --output_dir /tmp/vqa/ \
   --dataloader_drop_last \
+  --replace_qa_head \
   --pod_type pod16
 ```
 - training precision: Mixed Precision
 ### Training results
+***** train metrics *****
+  "epoch": 4.0,
+  "train_loss": 0.0060005393999575125,
+  "train_runtime": 13854.802,
+  "train_samples": 443757,
+  "train_samples_per_second": 128.116,
+  "train_steps_per_second": 2.002
+***** eval metrics *****
+  "eval_accuracy": 0.7242196202278137,
+  "eval_loss": 0.0008745193481445312,
+  "eval_samples": 214354,
 ### Framework versions