Commit From AutoTrain

Files changed (13) hide show

.gitattributes CHANGED Viewed

@@ -32,3 +32,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.bin.* filter=lfs diff=lfs merge=lfs -text
+*.tar.gz filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

+---
+tags:
+- autotrain
+- text-generation
+widget:
+- text: "I love AutoTrain because "
+datasets:
+- adityavelusamy/autotrain-data-6v04-emwh-bq47
+co2_eq_emissions:
+  emissions: 0
+---
+# Model Trained Using AutoTrain
+- Problem type: Text Generation
+- CO2 Emissions (in grams): 0.0000
+## Validation Metrics
+loss: 2.889120101928711

config.json ADDED Viewed

+{
+  "_name_or_path": "AutoTrain",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 36,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": false,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.29.2"
+}

handler.py ADDED Viewed

+from typing import Dict, List, Any
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel, PeftConfig
+import torch
+class EndpointHandler:
+    def __init__(self, path=""):
+        # load model and processor from path
+        model = AutoModelForCausalLM.from_pretrained(
+            path, torch_dtype=torch.float16, load_in_8bit=True, device_map="auto"
+        )
+        self.tokenizer = AutoTokenizer.from_pretrained(path)
+        self.model.eval()
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, str]:
+        '''
+        Args:
+            data (:dict:):
+                The payload with the text prompt and generation parameters.
+        '''
+        # process input
+        inputs = data.pop("inputs", data)
+        parameters = data.pop("parameters", None)
+        # preprocess
+        input_ids = self.tokenizer(inputs, return_tensors="pt").input_ids
+        # pass inputs with all kwargs in data
+        if parameters is not None:
+            outputs = self.model.generate(input_ids=input_ids, **parameters)
+        else:
+            outputs = self.model.generate(input_ids=input_ids)
+        # postprocess the prediction
+        prediction = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return [{"generated_text": prediction}]

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddda5056b6dd26a946258861360f4deb916a81c62df77a09b5a4c346467c9bfd
+size 3133922352

pytorch_model.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:346ff5369d21eb23a1e470699002f015b3827a0e125d5bd71f28edc65340b66a
+size 3134035005

requirements.txt ADDED Viewed

+accelerate==0.18.0
+transformers==4.28.1
+git+https://github.com/huggingface/peft.git
+bitsandbytes
+tokenizers>=0.13.3

special_tokens_map.json ADDED Viewed

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:cda20b8ca044949aa07ac4078420c80d1a57139d5f9f33700e46fb2d891e7c66
+size 2107653

tokenizer_config.json ADDED Viewed

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff