isatis commited on Aug 18, 2023

Commit

f5210ab

1 Parent(s): 15ff747

add custom handler

Browse files

Files changed (37) hide show

embeddings/EasyNegative.safetensors +3 -0
embeddings/NegfeetV2.pt +3 -0
embeddings/bad-artist-anime.pt +3 -0
embeddings/bad-hands-5.pt +3 -0
embeddings/bad_prompt_version2.pt +3 -0
embeddings/badhandv4.pt +3 -0
embeddings/nartfixer.pt +3 -0
embeddings/ng_deepnegative_v1_75t.pt +3 -0
embeddings/polyhedron_skinny_all.pt +3 -0
feature_extractor/preprocessor_config.json +28 -0
handler.py +283 -0
lora/FilmVelvia3.safetensors +3 -0
lora/InstantPhotoX3.safetensors +3 -0
lora/MBHU-TT2FRS.safetensors +3 -0
lora/MuscleGirl_v1.safetensors +3 -0
lora/ShinyOiledSkin_v20-LoRA.safetensors +3 -0
lora/add_detail.safetensors +3 -0
lora/detailed_eye-10.safetensors +3 -0
lora/epiNoiseoffset_v2.safetensors +3 -0
lora/hairdetailer.safetensors +3 -0
lora/lora_leica.safetensors +3 -0
lora/polyhedron_new_skin_v1.1.safetensors +3 -0
model_index.json +33 -0
safety_checker/config.json +181 -0
safety_checker/pytorch_model.bin +3 -0
scheduler/scheduler_config.json +15 -0
text_encoder/config.json +24 -0
text_encoder/pytorch_model.bin +3 -0
tokenizer/merges.txt +0 -0
tokenizer/special_tokens_map.json +24 -0
tokenizer/tokenizer_config.json +34 -0
tokenizer/vocab.json +0 -0
unet/config.json +65 -0
unet/diffusion_pytorch_model.bin +3 -0
v1-inference.yaml +70 -0
vae/config.json +31 -0
vae/diffusion_pytorch_model.bin +3 -0

embeddings/EasyNegative.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c74b4e810b030f6b75fde959e2db678c268d07115b85356d3c0138ba5eb42340
+size 24655

embeddings/NegfeetV2.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df90b1ff666d80a7e3b07831761d8a41ea40b41d38a796cb68a71d1e12772ca6
+size 25442

embeddings/bad-artist-anime.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f7bea88750c97a0b8c9ba9f5bc0d13648c3a17a69aaac855903229d5f58c34b
+size 7083

embeddings/bad-hands-5.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa7651be154c46a2f4868788ef84a92b3083b0c0c5c46f5012a56698bfd2a1ba
+size 7083

embeddings/bad_prompt_version2.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f35e7dd816ae04bb3f774a9a17ebfbc50c0e3a53f69a9a40bed05936d3a3812
+size 25515

embeddings/badhandv4.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e40d722fc3d0c2decb62debfaf8058db30ccdae9ab00ff64b183907b435708e
+size 19371

embeddings/nartfixer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0504f05844290ac4d2de41d0338fb642548fb18efd8c6de7bb571ab1d60af89
+size 82783

embeddings/ng_deepnegative_v1_75t.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54e7e4826d53949a3d0dde40aea023b1e456a618c608a7630e3999fd38f93245
+size 231339

embeddings/polyhedron_skinny_all.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:210b1ee059ef769cff1df73b119ffe3209ace2ceb01dd4aaa8649fc509108534
+size 302262993

feature_extractor/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "crop_size": {
+    "height": 224,
+    "width": 224
+  },
+  "do_center_crop": true,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "feature_extractor_type": "CLIPFeatureExtractor",
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "CLIPImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

handler.py ADDED Viewed

	@@ -0,0 +1,283 @@

+import base64
+import json
+import sys
+from collections import defaultdict
+from io import BytesIO
+from pprint import pprint
+from typing import Any, Dict, List
+import torch
+from diffusers import (
+    DiffusionPipeline,
+    DPMSolverMultistepScheduler,
+    DPMSolverSinglestepScheduler,
+    EulerAncestralDiscreteScheduler,
+)
+from safetensors.torch import load_file
+from torch import autocast
+# https://huggingface.co/philschmid/stable-diffusion-v1-4-endpoints
+# https://huggingface.co/docs/inference-endpoints/guides/custom_handler
+# set device
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+if device.type != "cuda":
+    raise ValueError("need to run on GPU")
+class EndpointHandler:
+    LORA_PATHS = {
+        "hairdetailer": r"lora/hairdetailer.safetensors",
+        "lora_leica": r"lora/lora_leica.safetensors",
+        "epiNoiseoffset_v2": r"lora/epiNoiseoffset_v2.safetensors",
+        "MBHU-TT2FRS": r"lora/MBHU-TT2FRS.safetensors",
+        "ShinyOiledSkin_v20": r"lora/ShinyOiledSkin_v20-LoRA.safetensors",
+        "polyhedron_new_skin_v1.1": r"lora/polyhedron_new_skin_v1.1.safetensors",
+        "detailed_eye-10": r"lora/detailed_eye-10.safetensors",
+        "add_detail": r"lora/add_detail.safetensors",
+        "MuscleGirl_v1": r"lora/MuscleGirl_v1.safetensors",
+    }
+    TEXTUAL_INVERSION = [
+        {
+            "weight_name": "embeddings/EasyNegative.safetensors",
+            "token": "easynegative",
+        },
+        {
+            "weight_name": "embeddings/EasyNegative.safetensors",
+            "token": "EasyNegative",
+        },
+        {"weight_name": "embeddings/badhandv4.pt", "token": "badhandv4"},
+        {
+            "weight_name": "embeddings/bad-artist-anime.pt",
+            "token": "bad-artist-anime",
+        },
+        {"weight_name": "embeddings/NegfeetV2.pt", "token": "NegfeetV2"},
+        {
+            "weight_name": "embeddings/ng_deepnegative_v1_75t.pt",
+            "token": "ng_deepnegative_v1_75t",
+        },
+        {
+            "weight_name": "embeddings/ng_deepnegative_v1_75t.pt",
+            "token": "NG_DeepNegative_V1_75T",
+        },
+        {"weight_name": "embeddings/bad-hands-5.pt", "token": "bad-hands-5"},
+    ]
+    def __init__(self, path="."):
+        # load the optimized model
+        self.pipe = DiffusionPipeline.from_pretrained(
+            path,
+            custom_pipeline="lpw_stable_diffusion",  # avoid 77 token limit
+            torch_dtype=torch.float16,  # accelerate render
+        )
+        self.pipe = self.pipe.to(device)
+        # DPM++ 2M SDE Karras
+        # increase step to avoid high contrast num_inference_steps=30
+        self.pipe.scheduler = DPMSolverMultistepScheduler.from_config(
+            self.pipe.scheduler.config,
+            use_karras_sigmas=True,
+            algorithm_type="sde-dpmsolver++",
+        )
+        # Mode boulardus
+        self.pipe.safety_checker = None
+        # Load negative embeddings to avoid bad hands, etc
+        self.load_embeddings()
+        # Load default Lora models
+        self.pipe = self.load_selected_loras(
+            [
+                ("polyhedron_new_skin_v1.1", 0.35),  # nice Skin
+                ("detailed_eye-10", 0.3),  # nice eyes
+                ("add_detail", 0.4),  # detailed pictures
+                ("MuscleGirl_v1", 0.3),  # shape persons
+            ],
+        )
+        # boosts performance by another 20%
+        self.pipe.enable_xformers_memory_efficient_attention()
+        self.pipe.enable_attention_slicing()
+    def load_lora(self, pipeline, lora_path, lora_weight=0.5):
+        state_dict = load_file(lora_path)
+        LORA_PREFIX_UNET = "lora_unet"
+        LORA_PREFIX_TEXT_ENCODER = "lora_te"
+        alpha = lora_weight
+        visited = []
+        for key in state_dict:
+            state_dict[key] = state_dict[key].to(device)
+        # directly update weight in diffusers model
+        for key in state_dict:
+            # as we have set the alpha beforehand, so just skip
+            if ".alpha" in key or key in visited:
+                continue
+            if "text" in key:
+                layer_infos = (
+                    key.split(".")[0]
+                    .split(LORA_PREFIX_TEXT_ENCODER + "_")[-1]
+                    .split("_")
+                )
+                curr_layer = pipeline.text_encoder
+            else:
+                layer_infos = (
+                    key.split(".")[0].split(LORA_PREFIX_UNET + "_")[-1].split("_")
+                )
+                curr_layer = pipeline.unet
+            # find the target layer
+            temp_name = layer_infos.pop(0)
+            while len(layer_infos) > -1:
+                try:
+                    curr_layer = curr_layer.__getattr__(temp_name)
+                    if len(layer_infos) > 0:
+                        temp_name = layer_infos.pop(0)
+                    elif len(layer_infos) == 0:
+                        break
+                except Exception:
+                    if len(temp_name) > 0:
+                        temp_name += "_" + layer_infos.pop(0)
+                    else:
+                        temp_name = layer_infos.pop(0)
+            # org_forward(x) + lora_up(lora_down(x)) * multiplier
+            pair_keys = []
+            if "lora_down" in key:
+                pair_keys.append(key.replace("lora_down", "lora_up"))
+                pair_keys.append(key)
+            else:
+                pair_keys.append(key)
+                pair_keys.append(key.replace("lora_up", "lora_down"))
+            # update weight
+            if len(state_dict[pair_keys[0]].shape) == 4:
+                weight_up = (
+                    state_dict[pair_keys[0]].squeeze(3).squeeze(2).to(torch.float32)
+                )
+                weight_down = (
+                    state_dict[pair_keys[1]].squeeze(3).squeeze(2).to(torch.float32)
+                )
+                curr_layer.weight.data += alpha * torch.mm(
+                    weight_up, weight_down
+                ).unsqueeze(2).unsqueeze(3)
+            else:
+                weight_up = state_dict[pair_keys[0]].to(torch.float32)
+                weight_down = state_dict[pair_keys[1]].to(torch.float32)
+                curr_layer.weight.data += alpha * torch.mm(weight_up, weight_down)
+            # update visited list
+            for item in pair_keys:
+                visited.append(item)
+        return pipeline
+    def load_embeddings(self):
+        """Load textual inversions, avoid bad prompts"""
+        for model in EndpointHandler.TEXTUAL_INVERSION:
+            self.pipe.load_textual_inversion(
+                ".", weight_name=model["weight_name"], token=model["token"]
+            )
+    def load_selected_loras(self, selections):
+        """Load Loras models, can lead to marvelous creations"""
+        for model_name, weight in selections:
+            lora_path = EndpointHandler.LORA_PATHS[model_name]
+            self.pipe = self.load_lora(
+                pipeline=self.pipe, lora_path=lora_path, lora_weight=weight
+            )
+        return self.pipe
+    def __call__(self, data: Any) -> List[List[Dict[str, float]]]:
+        """
+        Args:
+            data (:obj:):
+                includes the input data and the parameters for the inference.
+        Return:
+            A :obj:`dict`:. base64 encoded image
+        """
+        global device
+        # Which Lora do we load ?
+        # selected_models = [
+        #     ("ShinyOiledSkin_v20", 0.3),
+        #     ("MBHU-TT2FRS", 0.5),
+        #     ("hairdetailer", 0.5),
+        #     ("lora_leica", 0.5),
+        #     ("epiNoiseoffset_v2", 0.5),
+        # ]
+        # 1. Verify input arguments
+        required_fields = [
+            "prompt",
+            "negative_prompt",
+            "width",
+            "num_inference_steps",
+            "height",
+            "seed",
+            "guidance_scale",
+        ]
+        missing_fields = [field for field in required_fields if field not in data]
+        if missing_fields:
+            return {
+                "flag": "error",
+                "message": f"Missing fields: {', '.join(missing_fields)}",
+            }
+        # Now extract the fields
+        prompt = data["prompt"]
+        negative_prompt = data["negative_prompt"]
+        loras_model = data.pop("loras_model", None)
+        seed = data["seed"]
+        width = data["width"]
+        num_inference_steps = data["num_inference_steps"]
+        height = data["height"]
+        guidance_scale = data["guidance_scale"]
+        # USe this to add automatically some negative prompts
+        forced_negative = (
+            negative_prompt
+            + """easynegative, badhandv4, bad-artist-anime, NegfeetV2, ng_deepnegative_v1_75t, bad-hands-5  """
+        )
+        # Set the generator seed if provided
+        generator = torch.Generator(device="cuda").manual_seed(seed) if seed else None
+        # Load the provided Lora models
+        if loras_model:
+            self.pipe = self.load_selected_loras(loras_model)
+        try:
+            # 2. Process
+            with autocast(device.type):
+                image = self.pipe.text2img(
+                    prompt=prompt,
+                    guidance_scale=guidance_scale,
+                    num_inference_steps=num_inference_steps,
+                    height=height,
+                    width=width,
+                    negative_prompt=forced_negative,
+                    generator=generator,
+                    max_embeddings_multiples=5,
+                ).images[0]
+            # encode image as base 64
+            buffered = BytesIO()
+            image.save(buffered, format="JPEG")
+            img_str = base64.b64encode(buffered.getvalue())
+            # Return the success response
+            return {"flag": "success", "image": img_str.decode()}
+        except Exception as e:
+            # Handle any other exceptions and return an error response
+            return {"flag": "error", "message": str(e)}

lora/FilmVelvia3.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac8b0e4aa77be4d8b83da9bafe0134a2e36504c9b5263a7030394cffe4f7003a
+size 151108832

lora/InstantPhotoX3.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4969da4a70d0eaec5eb76aa6746d1a9b177c9fe58558878d9725b460c4a44b9
+size 151108832

lora/MBHU-TT2FRS.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60845bdd338d468ab086d19180c24508b873f362445451b6b3c7ff91fab885bb
+size 18582436

lora/MuscleGirl_v1.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2e9e3a591ca9fd274e8a0752bb871323a23eb1dbb8cc15e358de448327c29b6
+size 37863942

lora/ShinyOiledSkin_v20-LoRA.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:987a38bcee368844b21cdb9cb51101c863fa40c2643f19cb15ef3c762d6127da
+size 75612660

lora/add_detail.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47aaaf0d2945ca937151d61304946dd229b3f072140b85484bc93e38f2a6e2f7
+size 37861176

lora/detailed_eye-10.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c91b1a73ab1a8bb07bb540112818a5458f7364501e35d8748b63c483a18dd7f
+size 18996195

lora/epiNoiseoffset_v2.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81680c064e9f50dfcc11ec5e25da1832f523ec84afd544f372c7786f3ddcbbac
+size 81479800

lora/hairdetailer.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0efcd0fe6630156f8c7127f2ffe9d951bec1b2b2ee38b4de97cc865d86f7203
+size 9548007

lora/lora_leica.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c360331ab917344da5180d95abedfabd185870d69b74ddd544c8ecc07b3c653d
+size 151108831

lora/polyhedron_new_skin_v1.1.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cbec5f3c0baf4f597b46043df01d7ec3210a751a9943bbf45e1602c447fd440
+size 151128227

model_index.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_class_name": "StableDiffusionPipeline",
+  "_diffusers_version": "0.20.0",
+  "feature_extractor": [
+    "transformers",
+    "CLIPImageProcessor"
+  ],
+  "requires_safety_checker": true,
+  "safety_checker": [
+    "stable_diffusion",
+    "StableDiffusionSafetyChecker"
+  ],
+  "scheduler": [
+    "diffusers",
+    "PNDMScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "CLIPTextModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "CLIPTokenizer"
+  ],
+  "unet": [
+    "diffusers",
+    "UNet2DConditionModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKL"
+  ]
+}

safety_checker/config.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "_commit_hash": "cb41f3a270d63d454d385fc2e4f571c487c253c5",
+  "_name_or_path": "CompVis/stable-diffusion-safety-checker",
+  "architectures": [
+    "StableDiffusionSafetyChecker"
+  ],
+  "initializer_factor": 1.0,
+  "logit_scale_init_value": 2.6592,
+  "model_type": "clip",
+  "projection_dim": 768,
+  "text_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.0,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_factor": 1.0,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 77,
+    "min_length": 0,
+    "model_type": "clip_text_model",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "projection_dim": 512,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.25.1",
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "vocab_size": 49408
+  },
+  "text_config_dict": {
+    "hidden_size": 768,
+    "intermediate_size": 3072,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12
+  },
+  "torch_dtype": "float32",
+  "transformers_version": null,
+  "vision_config": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_dropout": 0.0,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "dropout": 0.0,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "quick_gelu",
+    "hidden_size": 1024,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "image_size": 224,
+    "initializer_factor": 1.0,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "min_length": 0,
+    "model_type": "clip_vision_model",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 16,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_channels": 3,
+    "num_hidden_layers": 24,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": null,
+    "patch_size": 14,
+    "prefix": null,
+    "problem_type": null,
+    "projection_dim": 512,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "transformers_version": "4.25.1",
+    "typical_p": 1.0,
+    "use_bfloat16": false
+  },
+  "vision_config_dict": {
+    "hidden_size": 1024,
+    "intermediate_size": 4096,
+    "num_attention_heads": 16,
+    "num_hidden_layers": 24,
+    "patch_size": 14
+  }
+}

safety_checker/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16d28f2b37109f222cdc33620fdd262102ac32112be0352a7f77e9614b35a394
+size 1216064769

scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "_class_name": "PNDMScheduler",
+  "_diffusers_version": "0.20.0",
+  "beta_end": 0.012,
+  "beta_schedule": "scaled_linear",
+  "beta_start": 0.00085,
+  "clip_sample": false,
+  "num_train_timesteps": 1000,
+  "prediction_type": "epsilon",
+  "set_alpha_to_one": false,
+  "skip_prk_steps": true,
+  "steps_offset": 1,
+  "timestep_spacing": "leading",
+  "trained_betas": null
+}

text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "architectures": [
+    "CLIPTextModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "dropout": 0.0,
+  "eos_token_id": 2,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 768,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 77,
+  "model_type": "clip_text_model",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "projection_dim": 768,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "vocab_size": 49408
+}

text_encoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57f6e3badaffb5713c93e1f34ac3abf2ee3cd48e60d01714a0a6ed33f3406a5a
+size 492307041

tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "do_lower_case": true,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 77,
+  "name_or_path": "openai/clip-vit-large-patch14",
+  "pad_token": "<|endoftext|>",
+  "special_tokens_map_file": "./special_tokens_map.json",
+  "tokenizer_class": "CLIPTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

unet/config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "_class_name": "UNet2DConditionModel",
+  "_diffusers_version": "0.20.0",
+  "act_fn": "silu",
+  "addition_embed_type": null,
+  "addition_embed_type_num_heads": 64,
+  "addition_time_embed_dim": null,
+  "attention_head_dim": 8,
+  "attention_type": "default",
+  "block_out_channels": [
+    320,
+    640,
+    1280,
+    1280
+  ],
+  "center_input_sample": false,
+  "class_embed_type": null,
+  "class_embeddings_concat": false,
+  "conv_in_kernel": 3,
+  "conv_out_kernel": 3,
+  "cross_attention_dim": 768,
+  "cross_attention_norm": null,
+  "down_block_types": [
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "DownBlock2D"
+  ],
+  "downsample_padding": 1,
+  "dual_cross_attention": false,
+  "encoder_hid_dim": null,
+  "encoder_hid_dim_type": null,
+  "flip_sin_to_cos": true,
+  "freq_shift": 0,
+  "in_channels": 4,
+  "layers_per_block": 2,
+  "mid_block_only_cross_attention": null,
+  "mid_block_scale_factor": 1,
+  "mid_block_type": "UNetMidBlock2DCrossAttn",
+  "norm_eps": 1e-05,
+  "norm_num_groups": 32,
+  "num_attention_heads": null,
+  "num_class_embeds": null,
+  "only_cross_attention": false,
+  "out_channels": 4,
+  "projection_class_embeddings_input_dim": null,
+  "resnet_out_scale_factor": 1.0,
+  "resnet_skip_time_act": false,
+  "resnet_time_scale_shift": "default",
+  "sample_size": 64,
+  "time_cond_proj_dim": null,
+  "time_embedding_act_fn": null,
+  "time_embedding_dim": null,
+  "time_embedding_type": "positional",
+  "timestep_post_act": null,
+  "transformer_layers_per_block": 1,
+  "up_block_types": [
+    "UpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D"
+  ],
+  "upcast_attention": false,
+  "use_linear_projection": false
+}

unet/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b64c917a491e553494fa0eb452824cc068296273a09436ca0803b06c42046c7d
+size 3438366373

v1-inference.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+model:
+  base_learning_rate: 1.0e-04
+  target: ldm.models.diffusion.ddpm.LatentDiffusion
+  params:
+    linear_start: 0.00085
+    linear_end: 0.0120
+    num_timesteps_cond: 1
+    log_every_t: 200
+    timesteps: 1000
+    first_stage_key: "jpg"
+    cond_stage_key: "txt"
+    image_size: 64
+    channels: 4
+    cond_stage_trainable: false   # Note: different from the one we trained before
+    conditioning_key: crossattn
+    monitor: val/loss_simple_ema
+    scale_factor: 0.18215
+    use_ema: False
+    scheduler_config: # 10000 warmup steps
+      target: ldm.lr_scheduler.LambdaLinearScheduler
+      params:
+        warm_up_steps: [ 10000 ]
+        cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
+        f_start: [ 1.e-6 ]
+        f_max: [ 1. ]
+        f_min: [ 1. ]
+    unet_config:
+      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
+      params:
+        image_size: 32 # unused
+        in_channels: 4
+        out_channels: 4
+        model_channels: 320
+        attention_resolutions: [ 4, 2, 1 ]
+        num_res_blocks: 2
+        channel_mult: [ 1, 2, 4, 4 ]
+        num_heads: 8
+        use_spatial_transformer: True
+        transformer_depth: 1
+        context_dim: 768
+        use_checkpoint: True
+        legacy: False
+    first_stage_config:
+      target: ldm.models.autoencoder.AutoencoderKL
+      params:
+        embed_dim: 4
+        monitor: val/rec_loss
+        ddconfig:
+          double_z: true
+          z_channels: 4
+          resolution: 256
+          in_channels: 3
+          out_ch: 3
+          ch: 128
+          ch_mult:
+          - 1
+          - 2
+          - 4
+          - 4
+          num_res_blocks: 2
+          attn_resolutions: []
+          dropout: 0.0
+        lossconfig:
+          target: torch.nn.Identity
+    cond_stage_config:
+      target: ldm.modules.encoders.modules.FrozenCLIPEmbedder

vae/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.20.0",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "force_upcast": true,
+  "in_channels": 3,
+  "latent_channels": 4,
+  "layers_per_block": 2,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 512,
+  "scaling_factor": 0.18215,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ]
+}

vae/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a425a89f2e522790b3975b93ed380814e68ec77a04841dced0832cad70eab929
+size 334712113