qualcomm
/

Llama-v2-7B-Chat

@@ -30,7 +30,7 @@ accross various devices, can be found [here](https://aihub.qualcomm.com/models/l
   - Model-1 (Prompt Processor): Llama-PromptProcessor-Quantized
   - Max context length: 1024
   - Prompt processor input: 1024 tokens
-  - Prompt processor output: 1 output token + KVCache for token generator
   - Model-2 (Token Generator): Llama-TokenGenerator-KVCache-Quantized
   - Token generator input: 1 input token + past KVCache
   - Token generator output: 1 output token + KVCache for next iteration

   - Model-1 (Prompt Processor): Llama-PromptProcessor-Quantized
   - Max context length: 1024
   - Prompt processor input: 1024 tokens
+  - Prompt processor output: 1024 output tokens + KVCache for token generator
   - Model-2 (Token Generator): Llama-TokenGenerator-KVCache-Quantized
   - Token generator input: 1 input token + past KVCache
   - Token generator output: 1 output token + KVCache for next iteration