Demo-Llama-Guard-3-1B

Sleeping

App Files Files Community

schroneko commited on Jul 23, 2024

Commit

3c1404f

verified ·

1 Parent(s): 0a17bfe

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -18

app.py CHANGED Viewed

@@ -14,34 +14,40 @@ dtype = torch.bfloat16
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
-tokenizer = AutoTokenizer.from_pretrained(model_id, token=huggingface_token)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype=dtype,
-    device_map="auto",
-    quantization_config=quantization_config,
-    token=huggingface_token,
-    low_cpu_mem_usage=True
-)
 def parse_llama_guard_output(result):
-    lines = [line.strip().lower() for line in result.split('\n') if line.strip()]
     if not lines:
-        return "Error", "No valid output", result
     safety_status = next((line for line in lines if line in ['safe', 'unsafe']), None)
     if safety_status == 'safe':
-        return "Safe", "None", result
     elif safety_status == 'unsafe':
         violated_categories = next((lines[i+1] for i, line in enumerate(lines) if line == 'unsafe' and i+1 < len(lines)), "Unspecified")
-        return "Unsafe", violated_categories, result
     else:
-        return "Error", f"Invalid output: {safety_status}", result
 @spaces.GPU
 def moderate(user_input, assistant_response):
     chat = [
         {"role": "user", "content": user_input},
         {"role": "assistant", "content": assistant_response},
@@ -51,12 +57,12 @@ def moderate(user_input, assistant_response):
     with torch.no_grad():
         output = model.generate(
             input_ids=input_ids,
-            max_new_tokens=100,
             pad_token_id=tokenizer.eos_token_id,
         )
-    prompt_len = input_ids.shape[-1]
-    result = tokenizer.decode(output[0][prompt_len:], skip_special_tokens=True)
     return parse_llama_guard_output(result)

 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
 def parse_llama_guard_output(result):
+    # "<END CONVERSATION>" 以降の部分を抽出
+    safety_assessment = result.split("<END CONVERSATION>")[-1].strip()
+    # 行ごとに分割して処理
+    lines = [line.strip().lower() for line in safety_assessment.split('\n') if line.strip()]
     if not lines:
+        return "Error", "No valid output", safety_assessment
+    # "safe" または "unsafe" を探す
     safety_status = next((line for line in lines if line in ['safe', 'unsafe']), None)
     if safety_status == 'safe':
+        return "Safe", "None", safety_assessment
     elif safety_status == 'unsafe':
+        # "unsafe" の次の行を違反カテゴリーとして扱う
         violated_categories = next((lines[i+1] for i, line in enumerate(lines) if line == 'unsafe' and i+1 < len(lines)), "Unspecified")
+        return "Unsafe", violated_categories, safety_assessment
     else:
+        return "Error", f"Invalid output: {safety_status}", safety_assessment
 @spaces.GPU
 def moderate(user_input, assistant_response):
+    tokenizer = AutoTokenizer.from_pretrained(model_id, token=huggingface_token)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_id,
+        torch_dtype=dtype,
+        device_map="auto",
+        quantization_config=quantization_config,
+        token=huggingface_token,
+        low_cpu_mem_usage=True
+    )
     chat = [
         {"role": "user", "content": user_input},
         {"role": "assistant", "content": assistant_response},
     with torch.no_grad():
         output = model.generate(
             input_ids=input_ids,
+            max_new_tokens=200,
             pad_token_id=tokenizer.eos_token_id,
+            do_sample=False
         )
+    result = tokenizer.decode(output[0], skip_special_tokens=True)
     return parse_llama_guard_output(result)