julien-c
/

fofr-sdxl-emoji

Native diffusers textual embeddings loading

by multimodalart HF staff - opened Jun 25

←

Files changed (1) hide show

handler.py CHANGED Viewed

@@ -5,7 +5,7 @@ from huggingface_hub import hf_hub_download
 from diffusers import DiffusionPipeline
 import base64
 from io import BytesIO
-from cog_sdxl.dataset_and_utils import TokenEmbeddingsHandler
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
@@ -24,15 +24,14 @@ class EndpointHandler:
         self.pipe.load_lora_weights("SvenN/sdxl-emoji", weight_name="lora.safetensors")
         self.pipe.fuse_lora()
-        text_encoders = [self.pipe.text_encoder, self.pipe.text_encoder_2]
-        tokenizers = [self.pipe.tokenizer, self.pipe.tokenizer_2]
         embedding_path = hf_hub_download(
             repo_id="SvenN/sdxl-emoji", filename="embeddings.pti", repo_type="model"
         )
-        embhandler = TokenEmbeddingsHandler(text_encoders, tokenizers)
-        embhandler.load_embeddings(embedding_path)
     def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
         """
@@ -45,11 +44,9 @@ class EndpointHandler:
         inputs = data.pop("inputs", data)
         # Automatically add trigger tokens to the beginning of the prompt
-        full_prompt = f"A <s0><s1> emoji {inputs}"
         images = self.pipe(
-            full_prompt,
-            cross_attention_kwargs={"scale": 0.8},
-            num_inference_steps=25
         ).images
         image = images[0]

 from diffusers import DiffusionPipeline
 import base64
 from io import BytesIO
+from safetensors.torch import load_file
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.pipe.load_lora_weights("SvenN/sdxl-emoji", weight_name="lora.safetensors")
         self.pipe.fuse_lora()
         embedding_path = hf_hub_download(
             repo_id="SvenN/sdxl-emoji", filename="embeddings.pti", repo_type="model"
         )
+        state_dict = load_file(embedding_path)
+        self.pipe.load_textual_inversion(state_dict["text_encoders_0"], token=["<s0>", "<s1>"], text_encoder=self.pipe.text_encoder, tokenizer=self.pipe.tokenizer)
+        self.pipe.load_textual_inversion(state_dict["text_encoders_1"], token=["<s0>", "<s1>"], text_encoder=self.pipe.text_encoder_2, tokenizer=self.pipe.tokenizer_2)
     def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
         """
         inputs = data.pop("inputs", data)
         # Automatically add trigger tokens to the beginning of the prompt
         images = self.pipe(
+            inputs,
+            **data['parameters']
         ).images
         image = images[0]