Commits · microsoft/phi-1

add attn_pdrop and auto_map

0b08351

susnato commited on Nov 25, 2023

more fixes

0aa7fc9

susnato commited on Nov 23, 2023

changes

66ac3c1

susnato commited on Nov 23, 2023

Fixes exceeding maximum sequence length when using generate().

759d148

gugarosa commited on Nov 20, 2023

Uses native torch decorator for disabling autocast.

5819d04

gugarosa commited on Nov 16, 2023

Adds disable_autocast support for different device types.

67ecc75

gugarosa commited on Nov 16, 2023

Fixes any potential overflow when calculating attention weights.

b5c5161

gugarosa commited on Nov 16, 2023

Delete modeling_mixformer_sequential.py

470e18a

gugarosa commited on Nov 9, 2023

Delete configuration_mixformer_sequential.py

bd98e4e

gugarosa commited on Nov 9, 2023

Upload pytorch_model.bin

34b22f4

gugarosa commited on Nov 9, 2023

Update to new model interface.

bbace88

gugarosa commited on Nov 9, 2023

Improves type hinting on configuration arguments.

8d2c4ce

gugarosa commited on Nov 1, 2023

Fixes flash-attn import with a try/except statement

9ed5987

gugarosa commited on Nov 1, 2023

Adds support for flash-attn rotary embedding and fused dense layers.

90c38d9

gugarosa commited on Nov 1, 2023

Adds support for MQA/GQA and attention mask during training / fine-tuning.

371fd51

gugarosa commited on Oct 30, 2023

Upload modeling_mixformer_sequential.py

633bca1

gugarosa commited on Sep 27, 2023

Upload README.md

769684a

gugarosa commited on Sep 27, 2023

fix(phi-1): Checks length of `attention_mask`if it is passed as direct tensor.

1f890f7

gugarosa commited on Sep 26, 2023

Support for `attention_mask` in forward pass.

d22f35e

gugarosa commited on Sep 26, 2023

Update README.md

621f844

suriyagunasekar commited on Sep 11, 2023

Upload tokenizer

7a24267

suriyagunasekar commited on Sep 11, 2023

Upload MixFormerSequentialForCausalLM

44cca9f

suriyagunasekar commited on Sep 11, 2023

Update README.md

3034d33

suriyagunasekar commited on Sep 11, 2023

Update README.md

1121e12

suriyagunasekar commited on Sep 11, 2023

Update README.md

3e86fe1

suriyagunasekar commited on Sep 11, 2023

Update generation_config.json

a85c61b

suriyagunasekar commited on Sep 11, 2023

Update generation_config.json

cb13e96

suriyagunasekar commited on Sep 11, 2023

Update generation_config.json

a15ded7

suriyagunasekar commited on Sep 11, 2023

Update README.md

ba068cc

suriyagunasekar commited on Sep 11, 2023

Update README.md

4cb33c4

suriyagunasekar commited on Sep 11, 2023

Update README.md

3cf35a2

suriyagunasekar commited on Sep 11, 2023

Update README.md

9e27d7d

suriyagunasekar commited on Sep 11, 2023

Upload Research License.docx

046a667

suriyagunasekar commited on Sep 11, 2023

Update README.md

3670ef4

suriyagunasekar commited on Sep 11, 2023

Update README.md

9c0466b

suriyagunasekar commited on Sep 11, 2023

Update README.md

9691b01

suriyagunasekar commited on Sep 11, 2023

Upload tokenizer

ebfa940

suriyagunasekar commited on Sep 10, 2023

Upload MixFormerSequentialForCausalLM

e96b200

suriyagunasekar commited on Sep 10, 2023

Upload tokenizer

91817f9

suriyagunasekar commited on Sep 10, 2023

Upload MixFormerSequentialForCausalLM

0f4ae0e

suriyagunasekar commited on Sep 10, 2023

initial commit

47c069f

suriyagunasekar commited on Sep 10, 2023

Commit History

add attn_pdrop and auto_map 0b08351

more fixes 0aa7fc9

changes 66ac3c1

Fixes exceeding maximum sequence length when using generate(). 759d148

Uses native torch decorator for disabling autocast. 5819d04

Adds disable_autocast support for different device types. 67ecc75

Fixes any potential overflow when calculating attention weights. b5c5161

Delete modeling_mixformer_sequential.py 470e18a

Delete configuration_mixformer_sequential.py bd98e4e

Upload pytorch_model.bin 34b22f4

Update to new model interface. bbace88

Improves type hinting on configuration arguments. 8d2c4ce

Fixes flash-attn import with a try/except statement 9ed5987

Adds support for flash-attn rotary embedding and fused dense layers. 90c38d9

Adds support for MQA/GQA and attention mask during training / fine-tuning. 371fd51

Upload modeling_mixformer_sequential.py 633bca1

Upload README.md 769684a

fix(phi-1): Checks length of `attention_mask`if it is passed as direct tensor. 1f890f7

Support for `attention_mask` in forward pass. d22f35e

Update README.md 621f844

Upload tokenizer 7a24267

Upload MixFormerSequentialForCausalLM 44cca9f

Update README.md 3034d33

Update README.md 1121e12

Update README.md 3e86fe1

Update generation_config.json a85c61b

Update generation_config.json cb13e96

Update generation_config.json a15ded7

Update README.md ba068cc

Update README.md 4cb33c4

Update README.md 3cf35a2

Update README.md 9e27d7d

Upload Research License.docx 046a667

Update README.md 3670ef4

Update README.md 9c0466b

Update README.md 9691b01

Upload tokenizer ebfa940

Upload MixFormerSequentialForCausalLM e96b200

Upload tokenizer 91817f9

Upload MixFormerSequentialForCausalLM 0f4ae0e

initial commit 47c069f

add attn_pdrop and auto_map

0b08351

more fixes

0aa7fc9

changes

66ac3c1

Fixes exceeding maximum sequence length when using generate().

759d148

Uses native torch decorator for disabling autocast.

5819d04

Adds disable_autocast support for different device types.

67ecc75

Fixes any potential overflow when calculating attention weights.

b5c5161

Delete modeling_mixformer_sequential.py

470e18a

Delete configuration_mixformer_sequential.py

bd98e4e

Upload pytorch_model.bin

34b22f4

Update to new model interface.

bbace88

Improves type hinting on configuration arguments.

8d2c4ce

Fixes flash-attn import with a try/except statement

9ed5987

Adds support for flash-attn rotary embedding and fused dense layers.

90c38d9

Adds support for MQA/GQA and attention mask during training / fine-tuning.

371fd51

Upload modeling_mixformer_sequential.py

633bca1

Upload README.md

769684a

fix(phi-1): Checks length of `attention_mask`if it is passed as direct tensor.

1f890f7

Support for `attention_mask` in forward pass.

d22f35e

Update README.md

621f844

Upload tokenizer

7a24267

Upload MixFormerSequentialForCausalLM

44cca9f

Update README.md

3034d33

Update README.md

1121e12

Update README.md

3e86fe1

Update generation_config.json

a85c61b

Update generation_config.json

cb13e96

Update generation_config.json

a15ded7

Update README.md

ba068cc

Update README.md

4cb33c4

Update README.md

3cf35a2

Update README.md

9e27d7d

Upload Research License.docx

046a667

Update README.md

3670ef4

Update README.md

9c0466b

Update README.md

9691b01

Upload tokenizer

ebfa940

Upload MixFormerSequentialForCausalLM

e96b200

Upload tokenizer

91817f9

Upload MixFormerSequentialForCausalLM

0f4ae0e

initial commit

47c069f