fix: apply proven configs from mlx-community/unsloth references

Fresh weights from full multimodal Google base model.
Configs matched against repos with millions of downloads.

Co-Authored-By: Cladius Maximus <cladius@lethean.io>

Files changed (6) hide show

README.md +3 -1
config.json +44 -1
model.safetensors +2 -2
model.safetensors.index.json +3 -1
processor_config.json +16 -49
tokenizer_config.json +41 -20

README.md CHANGED Viewed

@@ -1,7 +1,9 @@
 ---
-language: en
 library_name: mlx
 pipeline_tag: text-generation
 tags:
 - mlx
 ---

 ---
 library_name: mlx
+license: apache-2.0
+license_link: https://ai.google.dev/gemma/docs/gemma_4_license
 pipeline_tag: text-generation
 tags:
 - mlx
+base_model: google/gemma-4-e4b-it
 ---

config.json CHANGED Viewed

@@ -161,5 +161,48 @@
     "tie_word_embeddings": true,
     "transformers_version": "5.5.0.dev0",
     "video_token_id": 258884,
     "vision_soft_tokens_per_image": 280
-}

     "tie_word_embeddings": true,
     "transformers_version": "5.5.0.dev0",
     "video_token_id": 258884,
+    "vision_config": {
+        "_name_or_path": "",
+        "architectures": null,
+        "attention_bias": false,
+        "attention_dropout": 0.0,
+        "chunk_size_feed_forward": 0,
+        "default_output_length": 280,
+        "dtype": "bfloat16",
+        "global_head_dim": 64,
+        "head_dim": 64,
+        "hidden_activation": "gelu_pytorch_tanh",
+        "hidden_size": 768,
+        "id2label": {
+            "0": "LABEL_0",
+            "1": "LABEL_1"
+        },
+        "initializer_range": 0.02,
+        "intermediate_size": 3072,
+        "is_encoder_decoder": false,
+        "label2id": {
+            "LABEL_0": 0,
+            "LABEL_1": 1
+        },
+        "max_position_embeddings": 131072,
+        "model_type": "gemma4_vision",
+        "num_attention_heads": 12,
+        "num_hidden_layers": 16,
+        "num_key_value_heads": 12,
+        "output_attentions": false,
+        "output_hidden_states": false,
+        "patch_size": 16,
+        "pooling_kernel_size": 3,
+        "position_embedding_size": 10240,
+        "problem_type": null,
+        "return_dict": true,
+        "rms_norm_eps": 1e-06,
+        "rope_parameters": {
+            "rope_theta": 100.0,
+            "rope_type": "default"
+        },
+        "standardize": false,
+        "use_clipped_linears": true
+    },
     "vision_soft_tokens_per_image": 280
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:33c0732399ce6381b18895eae1440b648a5e9d73f542a944e3af943a95f7a750
-size 4269485663

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e7b458e101cafb6d157d395535d1dd0832b4382eda753cf1b0e509ad1bafab0
+size 4229918563

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 4269294164,
         "total_parameters": 7518068992
     },
     "weight_map": {
@@ -1481,6 +1481,8 @@
         "language_model.model.layers.9.self_attn.v_proj.scales": "model.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.weight": "model.safetensors",
         "language_model.model.norm.weight": "model.safetensors",
         "language_model.model.per_layer_model_projection.weight": "model.safetensors",
         "language_model.model.per_layer_projection_norm.weight": "model.safetensors"
     }

 {
     "metadata": {
+        "total_size": 4229726804,
         "total_parameters": 7518068992
     },
     "weight_map": {
         "language_model.model.layers.9.self_attn.v_proj.scales": "model.safetensors",
         "language_model.model.layers.9.self_attn.v_proj.weight": "model.safetensors",
         "language_model.model.norm.weight": "model.safetensors",
+        "language_model.model.per_layer_model_projection.biases": "model.safetensors",
+        "language_model.model.per_layer_model_projection.scales": "model.safetensors",
         "language_model.model.per_layer_model_projection.weight": "model.safetensors",
         "language_model.model.per_layer_projection_norm.weight": "model.safetensors"
     }

processor_config.json CHANGED Viewed

@@ -1,27 +1,5 @@
 {
-  "audio_ms_per_token": 40,
   "audio_seq_length": 750,
-  "feature_extractor": {
-    "dither": 0.0,
-    "feature_extractor_type": "Gemma4AudioFeatureExtractor",
-    "feature_size": 128,
-    "fft_length": 512,
-    "fft_overdrive": false,
-    "frame_length": 320,
-    "hop_length": 160,
-    "input_scale_factor": 1.0,
-    "max_frequency": 8000.0,
-    "mel_floor": 0.001,
-    "min_frequency": 0.0,
-    "padding_side": "right",
-    "padding_value": 0.0,
-    "per_bin_mean": null,
-    "per_bin_stddev": null,
-    "preemphasis": 0.0,
-    "preemphasis_htk_flavor": true,
-    "return_attention_mask": true,
-    "sampling_rate": 16000
-  },
   "image_processor": {
     "do_convert_rgb": true,
     "do_normalize": false,
@@ -43,33 +21,22 @@
     "patch_size": 16,
     "pooling_kernel_size": 3,
     "resample": 3,
-    "rescale_factor": 0.00392156862745098
   },
   "image_seq_length": 280,
   "processor_class": "Gemma4Processor",
-  "video_processor": {
-    "do_convert_rgb": true,
-    "do_normalize": true,
-    "do_rescale": true,
-    "do_resize": true,
-    "do_sample_frames": true,
-    "image_mean": [
-      0.0,
-      0.0,
-      0.0
-    ],
-    "image_std": [
-      1.0,
-      1.0,
-      1.0
-    ],
-    "max_soft_tokens": 70,
-    "num_frames": 32,
-    "patch_size": 16,
-    "pooling_kernel_size": 3,
-    "resample": 3,
-    "rescale_factor": 0.00392156862745098,
-    "return_metadata": false,
-    "video_processor_type": "Gemma4VideoProcessor"
-  }
-}

 {
   "audio_seq_length": 750,
   "image_processor": {
     "do_convert_rgb": true,
     "do_normalize": false,
     "patch_size": 16,
     "pooling_kernel_size": 3,
     "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "height": 224,
+      "width": 224
+    }
   },
   "image_seq_length": 280,
   "processor_class": "Gemma4Processor",
+  "feature_extractor": {
+    "feature_extractor_type": "Gemma4AudioFeatureExtractor",
+    "sampling_rate": 16000,
+    "num_mel_filters": 128,
+    "fft_length": 512,
+    "hop_length": 160,
+    "chunk_duration": 8.0,
+    "overlap_duration": 1.0
+  },
+  "audio_ms_per_token": 40
+}

tokenizer_config.json CHANGED Viewed

@@ -17,50 +17,71 @@
     "<|video|>"
   ],
   "image_token": "<|image|>",
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "padding_side": "left",
   "processor_class": "Gemma4Processor",
   "response_schema": {
-    "type": "object",
     "properties": {
       "role": {
         "const": "assistant"
       },
       "thinking": {
         "type": "string"
       },
-      "content": {
-        "type": "string"
-      },
       "tool_calls": {
-        "x-regex-iterator": "<\\|tool_call>(.*?)<tool_call\\|>",
-        "type": "array",
         "items": {
-          "type": "object",
           "properties": {
-            "type": {
-              "const": "function"
-            },
             "function": {
-              "type": "object",
-              "x-regex": "call\\:(?P<name>\\w+)(?P<arguments>\\{.*\\})",
               "properties": {
-                "name": {
-                  "type": "string"
-                },
                 "arguments": {
                   "type": "object",
-                  "x-parser": "gemma4-tool-call",
-                  "additionalProperties": {}
                 }
-              }
             }
-          }
-        }
       }
     },
     "x-regex": "(\\<\\|channel\\>thought\\n(?P<thinking>.*?)\\<channel\\|\\>)?(?P<content>(?:(?!\\<\\|tool_call\\>)(?!\\<turn\\|\\>).)+)?(?P<tool_calls>\\<\\|tool_call\\>.*\\<tool_call\\|\\>)?(?:\\<turn\\|\\>)?"
   },
   "soc_token": "<|channel>",

     "<|video|>"
   ],
   "image_token": "<|image|>",
+  "is_local": true,
   "mask_token": "<mask>",
   "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {
+    "audio_token": "<|audio|>",
+    "boa_token": "<|audio>",
+    "boi_token": "<|image>",
+    "eoa_token": "<audio|>",
+    "eoc_token": "<channel|>",
+    "eoi_token": "<image|>",
+    "eot_token": "<turn|>",
+    "escape_token": "<|\"|>",
+    "etc_token": "<tool_call|>",
+    "etd_token": "<tool|>",
+    "etr_token": "<tool_response|>",
+    "image_token": "<|image|>",
+    "soc_token": "<|channel>",
+    "sot_token": "<|turn>",
+    "stc_token": "<|tool_call>",
+    "std_token": "<|tool>",
+    "str_token": "<|tool_response>",
+    "think_token": "<|think|>"
+  },
   "pad_token": "<pad>",
   "padding_side": "left",
   "processor_class": "Gemma4Processor",
   "response_schema": {
     "properties": {
+      "content": {
+        "type": "string"
+      },
       "role": {
         "const": "assistant"
       },
       "thinking": {
         "type": "string"
       },
       "tool_calls": {
         "items": {
           "properties": {
             "function": {
               "properties": {
                 "arguments": {
+                  "additionalProperties": {},
                   "type": "object",
+                  "x-parser": "gemma4-tool-call"
+                },
+                "name": {
+                  "type": "string"
                 }
+              },
+              "type": "object",
+              "x-regex": "call\\:(?P<name>\\w+)(?P<arguments>\\{.*\\})"
+            },
+            "type": {
+              "const": "function"
             }
+          },
+          "type": "object"
+        },
+        "type": "array",
+        "x-regex-iterator": "<\\|tool_call>(.*?)<tool_call\\|>"
       }
     },
+    "type": "object",
     "x-regex": "(\\<\\|channel\\>thought\\n(?P<thinking>.*?)\\<channel\\|\\>)?(?P<content>(?:(?!\\<\\|tool_call\\>)(?!\\<turn\\|\\>).)+)?(?P<tool_calls>\\<\\|tool_call\\>.*\\<tool_call\\|\\>)?(?:\\<turn\\|\\>)?"
   },
   "soc_token": "<|channel>",