THUDM
/

chatglm-6b-int4

Inference Endpoints

Model card Files Files and versions Community

chatglm-6b-int4 / quantization.py

Commit History

Add support for parallel quantization on Mac

f6b88da

zxdu20 commited on May 4, 2023

Remove assert in load_cpu_kernel

63d66b0

zxdu20 commited on Apr 29, 2023

Sync with chatglm-6b

f55a108

zxdu20 commited on Apr 28, 2023

Add assertion when loading cpu and cuda kernel fails

630d0ef

songxxzp commited on Apr 14, 2023

Add assertion when loading cpu and cuda kernel fails

bcc35f0

songxxzp commited on Apr 14, 2023

Update CPU kernel loading method

c7d8998

songxxzp commited on Apr 14, 2023

Fix bugs when compiling cpu kernels

68873da

DrSong commited on Apr 6, 2023

Synchronize with chatglm 6b repo

7aaf3fe

DrSong commited on Apr 3, 2023

Fix parallel cpu kernel

7458231

DrSong commited on Apr 1, 2023

Fix bugs in quantization when loading kernels

dac03c3

DrSong commited on Mar 22, 2023

init commmit

a93efa9

Sengxian commited on Mar 19, 2023