Or4cl3-1
/

CSUMLM

Text Generation

encoder_decoder

natural language understanding

machine learning

self-reflection

Inference Endpoints

Model card Files Files and versions Community

Or4cl3-1 commited on Apr 15

Commit

3523256

•

1 Parent(s): 26d22a0

Update config.json

Files changed (1) hide show

config.json +24 -36

config.json CHANGED Viewed

@@ -1,41 +1,29 @@
 {
-  "model_type": "unified_multimodal_language_model",
   "model_name": "CognoSphere/CSUMLM",
   "model_description": "CognoSphere Unified Multimodal Language Model (CSUMLM) is an advanced AI model capable of processing and generating text, images, and audio data. It combines transfer learning, deep learning, self-supervised learning, meta-learning, deep meta-learning, reinforcement learning, and cross-domain analogy extraction to achieve state-of-the-art performance in multimodal tasks.",
-  "model_architecture": {
-    "text_encoder": {
-      "type": "transformer",
-      "num_layers": 12,
-      "hidden_size": 768,
-      "num_attention_heads": 12,
-      "intermediate_size": 3072
-    },
-    "image_encoder": {
-      "type": "convolutional",
-      "num_layers": 5,
-      "kernel_sizes": [3, 3, 3, 3, 3],
-      "channels": [64, 128, 256, 512, 512]
-    },
-    "audio_encoder": {
-      "type": "recurrent",
-      "num_layers": 3,
-      "hidden_size": 512,
-      "bidirectional": true
-    },
-    "multimodal_fusion": {
-      "type": "transformer",
-      "num_layers": 6,
-      "hidden_size": 1024,
-      "num_attention_heads": 16,
-      "intermediate_size": 4096
-    },
-    "decoder": {
-      "type": "transformer",
-      "num_layers": 12,
-      "hidden_size": 768,
-      "num_attention_heads": 12,
-      "intermediate_size": 3072
-    }
   },
   "training_data": {
     "text": [
@@ -71,4 +59,4 @@
     "rouge",
     "cider"
   ]
-    }

 {
+  "model_type": "encoder_decoder",
+  "encoder_type": "csumlm_encoder",
+  "decoder_type": "csumlm_decoder",
   "model_name": "CognoSphere/CSUMLM",
   "model_description": "CognoSphere Unified Multimodal Language Model (CSUMLM) is an advanced AI model capable of processing and generating text, images, and audio data. It combines transfer learning, deep learning, self-supervised learning, meta-learning, deep meta-learning, reinforcement learning, and cross-domain analogy extraction to achieve state-of-the-art performance in multimodal tasks.",
+  "encoder": {
+    "type": "transformer",
+    "num_layers": 12,
+    "hidden_size": 768,
+    "num_attention_heads": 12,
+    "intermediate_size": 3072
+  },
+  "decoder": {
+    "type": "transformer",
+    "num_layers": 12,
+    "hidden_size": 768,
+    "num_attention_heads": 12,
+    "intermediate_size": 3072
+  },
+  "multimodal_fusion": {
+    "type": "transformer",
+    "num_layers": 6,
+    "hidden_size": 1024,
+    "num_attention_heads": 16,
+    "intermediate_size": 4096
   },
   "training_data": {
     "text": [
     "rouge",
     "cider"
   ]
+  }