StarFox7
/

Llama-2-ko-7B-ggml

Korean

Model card Files Files and versions Community

StarFox7 commited on Aug 6, 2023

Commit

9879b2c

•

1 Parent(s): 4605e13

Update README.md

Browse files

Files changed (1) hide show

README.md +9 -2

README.md CHANGED Viewed

@@ -4,13 +4,17 @@ language:
 - ko
 ---
 # Llama-2-ko-7b-ggml
 Llama-2-ko-7b-ggml 은 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 의 **GGML** 포맷 모델입니다.
 - Llama2 tokenizer 에 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 에서 사용된 한국어 Additaional Token 을 반영하여 생성했습니다.
 - **GGML** 포맷 모델은 [llama.cpp](https://github.com/ggerganov/llama.cpp) 를 사용하여 C/C++ 기반으로 Inference 합니다.
 - [llama.cpp](https://github.com/ggerganov/llama.cpp) 의 Python Binding 패키지인 [llama-cpp-python](https://github.com/abetlen/llama-cpp-python) 을 사용하면 python 환경에서도 Inference 가능합니다.
-참고로, [Llama-2-ko-7b-chat-ggml](https://huggingface.co/StarFox7/Llama-2-ko-7B-ggml) 에서 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 에 [nlpai-lab/kullm-v2](https://huggingface.co/datasets/nlpai-lab/kullm-v2) 을 추가 학습한 [Llama-2-ko-7b-chat](https://huggingface.co/kfkas/Llama-2-ko-7b-Chat) 의 **GGML** 포맷 모델을 찾을 수 있습니다.
 ---
 # 양자화 (Quantization)
@@ -24,10 +28,13 @@ Llama-2-ko-7b-ggml 은 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-
 # Inference Code Example (Python)
 다음은 Inference 를 위한 간단한 Example Code 입니다. [llama-cpp-python](https://github.com/abetlen/llama-cpp-python) 그리고 이 Repository 의 Llama-2-ko-7b-ggml-q4_0.bin 가 필요합니다.
 ```python
 from llama_cpp import Llama
 llm = Llama(model_path = 'Llama-2-ko-7b-ggml-q4_0.bin',
-            n_ctx=1024)
 output = llm("Q: 인생에 대해서 설명하시오. A: ", max_tokens=1024, stop=["Q:", "\n"], echo=True)

 - ko
 ---
 # Llama-2-ko-7b-ggml
+<img src=https://huggingface.co/StarFox7/Llama-2-ko-7B-ggml/resolve/main/cute.png style="max-width: 200px; width: 100%" />
 Llama-2-ko-7b-ggml 은 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 의 **GGML** 포맷 모델입니다.
 - Llama2 tokenizer 에 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 에서 사용된 한국어 Additaional Token 을 반영하여 생성했습니다.
 - **GGML** 포맷 모델은 [llama.cpp](https://github.com/ggerganov/llama.cpp) 를 사용하여 C/C++ 기반으로 Inference 합니다.
+- **GGML** 포맷 모델은 비교적 낮은 사양의 컴퓨팅 자원에서도 Inference 가능합니다. ( 예: 4비트 양자화 모델 (q4) 은 CPU,7-8GB RAM 환경에서 Inference 가능 )
 - [llama.cpp](https://github.com/ggerganov/llama.cpp) 의 Python Binding 패키지인 [llama-cpp-python](https://github.com/abetlen/llama-cpp-python) 을 사용하면 python 환경에서도 Inference 가능합니다.
+참고로, [Llama-2-ko-7b-chat-ggml](https://huggingface.co/StarFox7/Llama-2-ko-7B-chat-ggml) 에서 [beomi/llama-2-ko-7b](https://huggingface.co/beomi/llama-2-ko-7b) 에 [nlpai-lab/kullm-v2](https://huggingface.co/datasets/nlpai-lab/kullm-v2) 을 추가 학습한 [kfkas/Llama-2-ko-7b-chat](https://huggingface.co/kfkas/Llama-2-ko-7b-Chat) 의 **GGML** 포맷 모델을 찾을 수 있습니다.
 ---
 # 양자화 (Quantization)
 # Inference Code Example (Python)
 다음은 Inference 를 위한 간단한 Example Code 입니다. [llama-cpp-python](https://github.com/abetlen/llama-cpp-python) 그리고 이 Repository 의 Llama-2-ko-7b-ggml-q4_0.bin 가 필요합니다.
 ```python
+# !pip install llama-cpp-python # llama-cpp-python 이 설치되어 있지 않다면 주석을 해제하여 설치합니다.
 from llama_cpp import Llama
 llm = Llama(model_path = 'Llama-2-ko-7b-ggml-q4_0.bin',
+            n_ctx=1024,
+            # n_gpu_layers=1 #gpu 가속을 원하는 경우 주석을 해제하고 Metal(Apple M1) 은 1, Cuda(Nvidia) 는 Video RAM Size 를 고려하여 적정한 수치를 입력합니다.)
+      )
 output = llm("Q: 인생에 대해서 설명하시오. A: ", max_tokens=1024, stop=["Q:", "\n"], echo=True)