cminja
/

deepseek-coder-v2-lite-instruct-GGUF

GGUF

Inference Endpoints

conversational

Model card Files Files and versions Community

cminja commited on Jun 19

Commit

ca7df26

•

1 Parent(s): 3a6a7c2

Update README.md

Browse files

Files changed (1) hide show

README.md +112 -3

README.md CHANGED Viewed

@@ -1,3 +1,112 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+---
+### Inference with Huggingface's Transformers
+You can directly employ [Huggingface's Transformers](https://github.com/huggingface/transformers) for model inference.
+#### Code Completion
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
+input_text = "#write a quick sort algorithm"
+inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_length=128)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+#### Code Insertion
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Base", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
+input_text = """<｜fim▁begin｜>def quick_sort(arr):
+    if len(arr) <= 1:
+        return arr
+    pivot = arr[0]
+    left = []
+    right = []
+<｜fim▁hole｜>
+        if arr[i] < pivot:
+            left.append(arr[i])
+        else:
+            right.append(arr[i])
+    return quick_sort(left) + [pivot] + quick_sort(right)<｜fim▁end｜>"""
+inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_length=128)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True)[len(input_text):])
+```
+#### Chat Completion
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct", trust_remote_code=True, torch_dtype=torch.bfloat16).cuda()
+messages=[
+    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
+]
+inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
+# tokenizer.eos_token_id is the id of <|EOT|> token
+outputs = model.generate(inputs, max_new_tokens=512, do_sample=False, top_k=50, top_p=0.95, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id)
+print(tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True))
+```
+The complete chat template can be found within `tokenizer_config.json` located in the huggingface model repository.
+An example of chat template is as belows:
+```bash
+<｜begin▁of▁sentence｜>User: {user_message_1}
+Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}
+Assistant:
+```
+You can also add an optional system message:
+```bash
+<｜begin▁of▁sentence｜>{system_message}
+User: {user_message_1}
+Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}
+Assistant:
+```
+### Inference with vLLM (recommended)
+To utilize [vLLM](https://github.com/vllm-project/vllm) for model inference, please merge this Pull Request into your vLLM codebase: https://github.com/vllm-project/vllm/pull/4650.
+```python
+from transformers import AutoTokenizer
+from vllm import LLM, SamplingParams
+max_model_len, tp_size = 8192, 1
+model_name = "deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+llm = LLM(model=model_name, tensor_parallel_size=tp_size, max_model_len=max_model_len, trust_remote_code=True, enforce_eager=True)
+sampling_params = SamplingParams(temperature=0.3, max_tokens=256, stop_token_ids=[tokenizer.eos_token_id])
+messages_list = [
+    [{"role": "user", "content": "Who are you?"}],
+    [{"role": "user", "content": "write a quick sort algorithm in python."}],
+    [{"role": "user", "content": "Write a piece of quicksort code in C++."}],
+]
+prompt_token_ids = [tokenizer.apply_chat_template(messages, add_generation_prompt=True) for messages in messages_list]
+outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)
+generated_text = [output.outputs[0].text for output in outputs]
+print(generated_text)
+```