Spaces:

flax-community
/

dalle-mini

Running

App Files Files Community

tmabraham commited on Jul 15, 2021

Commit

aecf3a7

•

1 Parent(s): 6567fd7

add tokenizer save to wandb:

Browse files

Former-commit-id: 36b4af0d456410a4c2996d1476525e91205d3d1c

Files changed (1) hide show

seq2seq/run_seq2seq_flax.py +9 -1

seq2seq/run_seq2seq_flax.py CHANGED Viewed

@@ -811,13 +811,16 @@ def main():
                 params=params,
             )
             # save state
             state = unreplicate(state)
             with (Path(training_args.output_dir) /  'opt_state.msgpack').open('wb') as f:
                 f.write(to_bytes(state.opt_state))
             with (Path(training_args.output_dir) /  'training_state.json').open('w') as f:
                 json.dump({'step': state.step.item()}, f)
             # save to W&B
             if data_args.log_model:
                 metadata = {'step': step, 'epoch': epoch}
@@ -827,6 +830,11 @@ def main():
                     name=f"model-{wandb.run.id}", type="bart_model", metadata=metadata
                 )
                 artifact.add_file(str(Path(training_args.output_dir) / 'flax_model.msgpack'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'config.json'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'opt_state.msgpack'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'training_state.json'))

                 params=params,
             )
+            # save tokenizer
+            tokenizer.save_pretrained(training_args.output_dir)
             # save state
             state = unreplicate(state)
             with (Path(training_args.output_dir) /  'opt_state.msgpack').open('wb') as f:
                 f.write(to_bytes(state.opt_state))
             with (Path(training_args.output_dir) /  'training_state.json').open('w') as f:
                 json.dump({'step': state.step.item()}, f)
             # save to W&B
             if data_args.log_model:
                 metadata = {'step': step, 'epoch': epoch}
                     name=f"model-{wandb.run.id}", type="bart_model", metadata=metadata
                 )
                 artifact.add_file(str(Path(training_args.output_dir) / 'flax_model.msgpack'))
+                artifact.add_file(str(Path(training_args.output_dir) / 'tokenizer_config.json'))
+                artifact.add_file(str(Path(training_args.output_dir) / 'special_tokens_map.json'))
+                artifact.add_file(str(Path(training_args.output_dir) / 'vocab.json'))
+                artifact.add_file(str(Path(training_args.output_dir) / 'added_tokens.json'))
+                artifact.add_file(str(Path(training_args.output_dir) / 'merges.txt'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'config.json'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'opt_state.msgpack'))
                 artifact.add_file(str(Path(training_args.output_dir) / 'training_state.json'))