Commits · flax-community/dalle-mini

feat: implement transformer variants (#144)

542378c
unverified

boris commited on Mar 24, 2022

feat(train): log norm and histograms (#143)

b7b619a
unverified

boris commited on Mar 19, 2022

feat(data): super conditioning (#141)

7939874
unverified

boris commited on Mar 17, 2022

feat: support pod (#139)

803ccbf
unverified

boris commited on Mar 14, 2022

fix: no gradient checkpointing for new model

2e02683

boris commited on Feb 23, 2022

feat: no gradient checkpointing for params init

b798ed3

boris commited on Feb 23, 2022

fix(train): consider schedule offset

bc4734f

boris commited on Feb 23, 2022

feat(train): local jax cache

9f5e879

boris commited on Feb 23, 2022

feat: add bucket reference to artifact

d368fb6

boris commited on Feb 23, 2022

style: lint

d5d442a

boris commited on Feb 22, 2022

feat: handle gradient checkpointing

5173ec7

boris commited on Feb 22, 2022

feat: load from bucket

1c4e839

boris commited on Feb 22, 2022

feat(train): save to bucket

50498e6

boris commited on Feb 22, 2022

feat: reduce artifact space + offset step

34cf91c

boris commited on Feb 22, 2022

feat: restore weights on CPU

5f954fc

boris commited on Feb 21, 2022

feat(train): simplify tokenizer loading

4cb21dd

boris commited on Feb 21, 2022

feat(train): use compilation cache

da9367c

boris commited on Feb 7, 2022

feat: log num_parameters early

7cfe576

boris commited on Feb 2, 2022

feat(train) - handle multiple nodes (#130)

0952927
unverified

boris commited on Feb 1, 2022

feat: handle model parallel

1bb3269

boris commited on Feb 1, 2022

feat(train): more custom x-axis

5f28cd2

boris commited on Jan 31, 2022

fix(train): opt_state_shape for distributed_shampoo

225b6ff

boris commited on Jan 29, 2022

feat(train): split artifact into model/state

fa5b058

boris commited on Jan 27, 2022

feat(train): another 25% faster

14abe8c

boris commited on Jan 26, 2022

feat(train): overhead from 70% to 1% 🥳

2b7f5f1

boris commited on Jan 26, 2022

feat(pjit): follow t5x style

7b5868f

boris commited on Jan 26, 2022

fix(train): grads spec

00710bc

boris commited on Jan 25, 2022

feat(train): improve pjit speed

f254058

boris commited on Jan 25, 2022

fix(train): consider correct batch size

b7c7458

boris commited on Jan 25, 2022

feat(train): custom start_preconditioning_step

8149924

boris commited on Jan 24, 2022

feat(train): handle distributed_shampoo in pjit

032f623

boris commited on Jan 24, 2022

feat(train): distributed_shampoo with pjit

cc34d07

boris commited on Jan 24, 2022

fix style

f044cb8

boris commited on Jan 23, 2022

feat(train): restore opt_state efficiently

1bfc1b5

boris commited on Jan 23, 2022

feat(model): clean way to load on cpu

12f323d

boris commited on Jan 22, 2022

feat(train): load model on CPU

3d43591

boris commited on Jan 22, 2022

feat(train): different rng per node

2d212d8

boris commited on Jan 22, 2022

feat(train): no batch dimension with pjit

df1fe19

boris commited on Jan 22, 2022

feat(train): progress on pjit

49597a2

boris commited on Jan 22, 2022

feat(train): start pjit support

0081723

boris commited on Jan 21, 2022

Load from wandb artifact (#121)

f69b21b
unverified

boris commited on Jan 20, 2022

Use DalleBartTokenizer. State restoration reverted to previous method:

ae983d7

Pedro Cuenca commited on Jan 18, 2022

fix(train): variable not defined

4c87adf

boris commited on Jan 18, 2022

feat(train): cleanup args

a2bf605

boris commited on Jan 18, 2022

refactor(train): cleanup

274ba73

boris commited on Jan 17, 2022

feat: custom gradient accumulation

2d07559

boris commited on Jan 17, 2022

fix: style

df01fa8

boris commited on Jan 16, 2022

feat(train): use MultiSteps for gradient accumulation

4fa53a5

boris commited on Jan 16, 2022

Accept changes suggested by linter.

9f522b8

Pedro Cuenca commited on Jan 16, 2022

Update help string for `model_name_or_path`.

290e443

Pedro Cuenca commited on Jan 16, 2022

Commit History

feat: implement transformer variants (#144) 542378c unverified

feat(train): log norm and histograms (#143) b7b619a unverified

feat(data): super conditioning (#141) 7939874 unverified

feat: support pod (#139) 803ccbf unverified

fix: no gradient checkpointing for new model 2e02683

feat: no gradient checkpointing for params init b798ed3

fix(train): consider schedule offset bc4734f

feat(train): local jax cache 9f5e879

feat: add bucket reference to artifact d368fb6

style: lint d5d442a

feat: handle gradient checkpointing 5173ec7

feat: load from bucket 1c4e839

feat(train): save to bucket 50498e6

feat: reduce artifact space + offset step 34cf91c

feat: restore weights on CPU 5f954fc

feat(train): simplify tokenizer loading 4cb21dd

feat(train): use compilation cache da9367c

feat: log num_parameters early 7cfe576

feat(train) - handle multiple nodes (#130) 0952927 unverified

feat: handle model parallel 1bb3269

feat(train): more custom x-axis 5f28cd2

fix(train): opt_state_shape for distributed_shampoo 225b6ff

feat(train): split artifact into model/state fa5b058

feat(train): another 25% faster 14abe8c

feat(train): overhead from 70% to 1% 🥳 2b7f5f1

feat(pjit): follow t5x style 7b5868f

fix(train): grads spec 00710bc

feat(train): improve pjit speed f254058

fix(train): consider correct batch size b7c7458

feat(train): custom start_preconditioning_step 8149924

feat(train): handle distributed_shampoo in pjit 032f623

feat(train): distributed_shampoo with pjit cc34d07

fix style f044cb8

feat(train): restore opt_state efficiently 1bfc1b5

feat(model): clean way to load on cpu 12f323d

feat(train): load model on CPU 3d43591

feat(train): different rng per node 2d212d8

feat(train): no batch dimension with pjit df1fe19

feat(train): progress on pjit 49597a2

feat(train): start pjit support 0081723

Load from wandb artifact (#121) f69b21b unverified

Use DalleBartTokenizer. State restoration reverted to previous method: ae983d7

fix(train): variable not defined 4c87adf

feat(train): cleanup args a2bf605

refactor(train): cleanup 274ba73

feat: custom gradient accumulation 2d07559

fix: style df01fa8

feat(train): use MultiSteps for gradient accumulation 4fa53a5

Accept changes suggested by linter. 9f522b8

Update help string for `model_name_or_path`. 290e443

feat: implement transformer variants (#144)

542378c
unverified

feat(train): log norm and histograms (#143)

b7b619a
unverified

feat(data): super conditioning (#141)

7939874
unverified

feat: support pod (#139)

803ccbf
unverified

fix: no gradient checkpointing for new model

2e02683

feat: no gradient checkpointing for params init

b798ed3

fix(train): consider schedule offset

bc4734f

feat(train): local jax cache

9f5e879

feat: add bucket reference to artifact

d368fb6

style: lint

d5d442a

feat: handle gradient checkpointing

5173ec7

feat: load from bucket

1c4e839

feat(train): save to bucket

50498e6

feat: reduce artifact space + offset step

34cf91c

feat: restore weights on CPU

5f954fc

feat(train): simplify tokenizer loading

4cb21dd

feat(train): use compilation cache

da9367c

feat: log num_parameters early

7cfe576

feat(train) - handle multiple nodes (#130)

0952927
unverified

feat: handle model parallel

1bb3269

feat(train): more custom x-axis

5f28cd2

fix(train): opt_state_shape for distributed_shampoo

225b6ff

feat(train): split artifact into model/state

fa5b058

feat(train): another 25% faster

14abe8c

feat(train): overhead from 70% to 1% 🥳

2b7f5f1

feat(pjit): follow t5x style

7b5868f

fix(train): grads spec

00710bc

feat(train): improve pjit speed

f254058

fix(train): consider correct batch size

b7c7458

feat(train): custom start_preconditioning_step

8149924

feat(train): handle distributed_shampoo in pjit

032f623

feat(train): distributed_shampoo with pjit

cc34d07

fix style

f044cb8

feat(train): restore opt_state efficiently

1bfc1b5

feat(model): clean way to load on cpu

12f323d

feat(train): load model on CPU

3d43591

feat(train): different rng per node

2d212d8

feat(train): no batch dimension with pjit

df1fe19

feat(train): progress on pjit

49597a2

feat(train): start pjit support

0081723

Load from wandb artifact (#121)

f69b21b
unverified

Use DalleBartTokenizer. State restoration reverted to previous method:

ae983d7

fix(train): variable not defined

4c87adf

feat(train): cleanup args

a2bf605

refactor(train): cleanup

274ba73

feat: custom gradient accumulation

2d07559

fix: style

df01fa8

feat(train): use MultiSteps for gradient accumulation

4fa53a5

Accept changes suggested by linter.

9f522b8

Update help string for `model_name_or_path`.

290e443