ibm-research
/

granite-7b-lab-accelerator

Inference Endpoints

Model card Files Files and versions Community

JRosenkranz commited on Apr 26, 2024

Commit

87f7854

·

verified ·

1 Parent(s): e1157f3

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -126,7 +126,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
-    --speculator_variant=1.4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --compile \
     --compile_mode=reduce-overhead
@@ -143,7 +143,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
-    --speculator_variant=1.4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --compile \
 ```
@@ -159,7 +159,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
-    --speculator_variant=1.4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --batch_input \
     --compile \

     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
+    --speculator_variant=1_4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --compile \
     --compile_mode=reduce-overhead
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
+    --speculator_variant=1_4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --compile \
 ```
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm/granite-7b-lab-accelerator \
     --speculator_source=hf \
+    --speculator_variant=1_4b \
     --top_k_tokens_per_head=4,3,2,2,2 \
     --batch_input \
     --compile \