Spaces:

qewrufda
/

jem-mini

Sleeping

App Files Files Community

qewrufda commited on 20 days ago

Commit

da82347

verified ·

1 Parent(s): 8bbfba5

Upload 9 files (#1)

Browse files

- Upload 9 files (275b713f4ba3e07d08053d8448397e16e6c6a07b)

Files changed (9) hide show

app.py +32 -95
lora/README.md +3 -0
lora/adapter_config.json +3 -0
lora/adapter_model.safetensors +3 -0
lora/chat_template.jinja +3 -0
lora/special_tokens_map.json +3 -0
lora/tokenizer.json +3 -0
lora/tokenizer_config.json +3 -0
requirements.txt +6 -0

app.py CHANGED Viewed

@@ -1,134 +1,71 @@
-!pip install -q -U transformers peft accelerate bitsandbytes
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-from google.colab import drive
 # ============================================
-# 1️⃣ 드라이브 마운트
 # ============================================
-drive.mount('/content/drive')
 # ============================================
-# 2️⃣ 환경 설정
 # ============================================
-BASE_MODEL = "beomi/Llama-3-Open-Ko-8B"
-LORA_PATH = "/content/drive/MyDrive/at_last"
-print("🚀 모델 로드 중...")
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
     trust_remote_code=True
 )
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-tokenizer.pad_token = tokenizer.eos_token
-print("🔗 LoRA 병합 중...")
 model = PeftModel.from_pretrained(model, LORA_PATH, is_local=True)
-# ✅ <|eot_id|> 토큰을 EOS로 지정
 model.config.eos_token_id = tokenizer.eos_token_id
 model.config.pad_token_id = tokenizer.pad_token_id
-print("✅ 모델 + LoRA 준비 완료!")
-from transformers import StoppingCriteria, StoppingCriteriaList
-class StopOnTokens(StoppingCriteria):
-    def __init__(self, stop_ids):
-        self.stop_ids = stop_ids
-    def __call__(self, input_ids, scores, **kwargs):
-        last_token = input_ids[0, -1].item()
-        return last_token in self.stop_ids
-# ✅ 종료 토큰 후보를 모두 등록
-stop_words = ["<|eot|>", "</s>", "<|end_of_text|>"]
-stop_ids = [tokenizer.convert_tokens_to_ids(w) for w in stop_words if tokenizer.convert_tokens_to_ids(w) is not None]
-stopping_criteria = StoppingCriteriaList([StopOnTokens(stop_ids)])
-stopping_criteria = StoppingCriteriaList([StopOnTokens(stop_ids)])
 # ============================================
-# 3️⃣ 프롬프트 빌드 함수
 # ============================================
 AI_PERSONALITY = """
 너는 사용자의 말을 진심으로 들어주는 친구야.
 사용자가 대화를 걸면 자연스럽고 일상적인 톤으로 대답해.
 장황하지 말고, 공감하면서 짧고 따뜻하게 말할 것.
-너는 사용자의 요청을 정확히 이해하고, 현실적인 답변을 제공하는 친근한 친구야.
-농담과 공감을 섞되, 요청을 회피하지 않고 명확히 답변해야 해.
 """
-def build_prompt_full_history(history):
-    """
-    - history는 user/assistant 모든 대화 포함
-    - 마지막 user 발화만 generate 대상
-    """
-    prompt = "<|begin_of_text|>\n" + AI_PERSONALITY.strip() + "\n\n"
-    for turn in history:
-        role = turn["role"]
-        content = turn["content"].strip()
-        prompt += f"<|start_header_id|>{role}<|end_header_id|>\n{content}<|eot|>\n"
-    # 마지막 user 이후에 assistant placeholder 추가
-    prompt += "<|start_header_id|>assistant<|end_header_id|>\n"
-    return prompt
 # ============================================
-# 4️⃣ 대화 루프
 # ============================================
-history = []
-add_header = True  # 첫 턴만 personality 포함
-while True:
-    user_input = input("👤 사용자: ").strip()
-    if user_input.lower() in ["종료", "exit", "quit"]:
-        print("🛑 대화 종료!")
-        break
     history.append({"role": "user", "content": user_input})
-    prompt = build_prompt_full_history(history)
-    add_header = False  # 이후에는 personality 중복 방지
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     with torch.no_grad():
-      output = model.generate(
-          **inputs,
-          max_new_tokens=256,
-          temperature=0.6,
-          top_p=0.9,
-          repetition_penalty=1.1,
-          pad_token_id=tokenizer.eos_token_id,
-          eos_token_id=tokenizer.eos_token_id,
-          stopping_criteria=stopping_criteria
-      )
-    response_full = tokenizer.decode(
-        output[0][inputs["input_ids"].shape[1]:],
-        skip_special_tokens=True
-    )
     response = response_full.split("<|eot|>")[0].strip()
-    # <|eot_id|> 기준으로 자르기
-    if "<|eot_id|>" in response_full:
-        response = response_full.split("<|eot_id|>")[0].strip()
-    else:
-        response = response_full.strip()
-    print(f"🤖 AI: {response}\n")
     history.append({"role": "assistant", "content": response})
     if len(history) > 10:
-        history = history[-10:]

 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+import gradio as gr
 # ============================================
+# 모델 + LoRA 경로
 # ============================================
+BASE_MODEL = "beomi/Llama-3-Open-Ko-8B"
+LORA_PATH = "./lora"  # Space repo에 lora 폴더 업로드
 # ============================================
+# 토크나이저 및 모델 로드
 # ============================================
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+tokenizer.pad_token = tokenizer.eos_token
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     torch_dtype=torch.bfloat16,
     device_map="auto",
     trust_remote_code=True
 )
 model = PeftModel.from_pretrained(model, LORA_PATH, is_local=True)
 model.config.eos_token_id = tokenizer.eos_token_id
 model.config.pad_token_id = tokenizer.pad_token_id
 # ============================================
+# AI 성격 설정
 # ============================================
 AI_PERSONALITY = """
 너는 사용자의 말을 진심으로 들어주는 친구야.
 사용자가 대화를 걸면 자연스럽고 일상적인 톤으로 대답해.
 장황하지 말고, 공감하면서 짧고 따뜻하게 말할 것.
 """
+history = []
 # ============================================
+# 대화 함수
 # ============================================
+def chat(user_input):
     history.append({"role": "user", "content": user_input})
+    prompt = "<|begin_of_text|>\n" + AI_PERSONALITY.strip() + "\n\n"
+    for turn in history:
+        prompt += f"<|start_header_id|>{turn['role']}<|end_header_id|>\n{turn['content']}<|eot|>\n"
+    prompt += "<|start_header_id|>assistant<|end_header_id|>\n"
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     with torch.no_grad():
+        output = model.generate(
+            **inputs,
+            max_new_tokens=256,
+            temperature=0.6,
+            top_p=0.9,
+            pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+        )
+    response_full = tokenizer.decode(output[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True)
     response = response_full.split("<|eot|>")[0].strip()
     history.append({"role": "assistant", "content": response})
     if len(history) > 10:
+        history[:] = history[-10:]  # 최근 10턴만 유지
+    return response
+# ============================================
+# Gradio 인터페이스 실행
+# ============================================
+iface = gr.Interface(fn=chat, inputs="text", outputs="text")
+iface.launch()

lora/README.md ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea1662cd8eeef0905f555018d524a759a6b55de446b34bf87fd760b2c71fdb0b
+size 1513

lora/adapter_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:798f804077d56c53d7c16fb297db7352ab4e19fee933c5aa02ad409cc63eb15a
+size 859

lora/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c51fefb4ab1859d25ab9378941efd1b63ecbd7cd9a7f947fc9715a54c7fa2083
+size 54543184

lora/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba03a121d097859c7b5b9cd03af99aafe95275210d2876f642ad9929a150f122
+size 389

lora/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:849070cae53bd45439e64ce5b1ddd650a66081b1bd47895c5a58939a05055579
+size 335

lora/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c5cf44023714fb39b05e71e425f8d7b92805ff73f7988b083b8c87f0bf87393
+size 17209961

lora/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c3b1e945bb39b585d9fd6a12b21aec73e8545eae873e8968cb265e1e3bf9074
+size 50630

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+torch
+transformers
+peft
+accelerate
+bitsandbytes
+gradio