pytorch
/

gemma-3-12b-it-AWQ-INT4

Image-Text-to-Text

text-generation-inference

Model card Files Files and versions

jerryzh168 commited on Oct 11

Commit

638f535

·

verified ·

1 Parent(s): 6be1d49

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -255,7 +255,7 @@ lm_eval --model hf --model_args pretrained=$MODEL --tasks mmlu --device cuda:0 -
 | Benchmark                        |                        |                                |                                 |
 |----------------------------------|------------------------|--------------------------------|---------------------------------|
 |                                  | google/gemma-3-12b-it  | jerryzh168/gemma-3-12b-it-INT4 | pytorch/gemma-3-12b-it-AWQ-INT4 |
-| Peak Memory (GB)                 | 24.50	                | 8.57 (65% reduction)           | 12.60 (49% reduction)           |
 Note: jerryzh168/gemma-3-12b-it-INT4 is the H100 optimized checkpoint for INT4
@@ -317,8 +317,8 @@ print(f"Peak Memory Usage: {mem:.02f} GB")
 | Benchmark (Latency)              |                        |                                |                                 |
 |----------------------------------|------------------------|--------------------------------|---------------------------------|
 |                                  | google/gemma-3-12b-it  | jerryzh168/gemma-3-12b-it-INT4 | pytorch/gemma-3-12b-it-AWQ-INT4 |
-| latency (batch_size=1)           | 3.73s	                | 2.76 (1.35x speedup)           | 2.76s (1.35x speedup)           |
-| latency (batch_size=256)         | 13.63s	                | 14.32 (0.95x speedup)          | 14.30s (0.95x speedup)          |
 Note: jerryzh168/gemma-3-12b-it-INT4 is the H100 optimized checkpoint for INT4

 | Benchmark                        |                        |                                |                                 |
 |----------------------------------|------------------------|--------------------------------|---------------------------------|
 |                                  | google/gemma-3-12b-it  | jerryzh168/gemma-3-12b-it-INT4 | pytorch/gemma-3-12b-it-AWQ-INT4 |
+| Peak Memory (GB)                 | 24.51	                | 10.37 (58% reduction)           | 12.60 (49% reduction)           |
 Note: jerryzh168/gemma-3-12b-it-INT4 is the H100 optimized checkpoint for INT4
 | Benchmark (Latency)              |                        |                                |                                 |
 |----------------------------------|------------------------|--------------------------------|---------------------------------|
 |                                  | google/gemma-3-12b-it  | jerryzh168/gemma-3-12b-it-INT4 | pytorch/gemma-3-12b-it-AWQ-INT4 |
+| latency (batch_size=1)           | 3.73s	                | 2.73 (1.37x speedup)           | 2.76s (1.35x speedup)           |
+| latency (batch_size=256)         | 14.07s	                | 13.81 (1.02x speedup)          | 13.93s (1.01x speedup)          |
 Note: jerryzh168/gemma-3-12b-it-INT4 is the H100 optimized checkpoint for INT4