asif00
/

bangla-llama-4bit

Question Answering

text-generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

asif00 commited on May 25

Commit

67354a2

•

1 Parent(s): dd0445f

Update README.md

Files changed (1) hide show

README.md +20 -0

README.md CHANGED Viewed

@@ -29,3 +29,23 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 tokenizer = AutoTokenizer.from_pretrained("asif00/bangla-llama-4bit")
 model = AutoModelForCausalLM.from_pretrained("asif00/bangla-llama-4bit")
 ```

 tokenizer = AutoTokenizer.from_pretrained("asif00/bangla-llama-4bit")
 model = AutoModelForCausalLM.from_pretrained("asif00/bangla-llama-4bit")
 ```
+# To get a cleaned up version of the response, you can use:
+```python
+def generate_response(question, context):
+    inputs = tokenizer([
+        prompt.format(
+            question,
+            context,
+            ""
+        )
+    ], return_tensors="pt").to("cuda")
+    outputs = model.generate(**inputs, max_new_tokens=1024, use_cache=True)
+    responses = tokenizer.batch_decode(outputs, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+    response_start = responses.find("### Response:") + len("### Response:")
+    response = responses[response_start:].strip()
+    return response
+```