andrewbrown
/

gpt2-mi-reflector

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
@@ -12,11 +12,13 @@
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
   "n_ctx": 1024,
-  "n_embd": 768,
-  "n_head": 12,
   "n_inner": null,
-  "n_layer": 12,
   "n_positions": 1024,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.1,
   "scale_attn_by_inverse_layer_idx": false,

 {
+  "_name_or_path": "gpt2-medium",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
   "n_ctx": 1024,
+  "n_embd": 1024,
+  "n_head": 16,
   "n_inner": null,
+  "n_layer": 24,
   "n_positions": 1024,
+  "n_special": 0,
+  "predict_special_tokens": true,
   "reorder_and_upcast_attn": false,
   "resid_pdrop": 0.1,
   "scale_attn_by_inverse_layer_idx": false,

tokenizer_config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   },
   "errors": "replace",
   "model_max_length": 1024,
-  "name_or_path": "gpt2",
   "pad_token": {
     "__type": "AddedToken",
     "content": "<|pad|>",

   },
   "errors": "replace",
   "model_max_length": 1024,
+  "name_or_path": "gpt2-medium",
   "pad_token": {
     "__type": "AddedToken",
     "content": "<|pad|>",