Spaces:

schroneko
/

meta-llama-Llama-Guard-3-8B-INT8

Running

schroneko commited on 8 days ago

Commit

39f6145

•

1 Parent(s): 66e2112

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import os
 import torch
-from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 import gradio as gr
 import spaces
@@ -23,24 +23,17 @@ class LlamaGuardModeration:
     def initialize_model(self):
         """モデルとトークナイザーの初期化"""
         if self.model is None:
-            # quantization_configの設定
-            quantization_config = BitsAndBytesConfig(
-                load_in_8bit=True,
-                bnb_4bit_compute_dtype=self.dtype
-            )
             # トークナイザーの初期化
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.model_id,
                 token=self.huggingface_token
             )
-            # モデルの初期化
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_id,
                 torch_dtype=self.dtype,
                 device_map="auto",
-                quantization_config=quantization_config,
                 token=self.huggingface_token,
                 low_cpu_mem_usage=True
             )

 import os
 import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
 import spaces
     def initialize_model(self):
         """モデルとトークナイザーの初期化"""
         if self.model is None:
             # トークナイザーの初期化
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.model_id,
                 token=self.huggingface_token
             )
+            # モデルの初期化（bitsandbytesなし）
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.model_id,
                 torch_dtype=self.dtype,
                 device_map="auto",
                 token=self.huggingface_token,
                 low_cpu_mem_usage=True
             )