ZhejiangLab
/

OneGenome-Rice

Model card Files Files and versions

xueyunlong commited on 6 days ago

Commit

9736f90

·

verified ·

1 Parent(s): 73b031e

Update README.md

Files changed (1) hide show

README.md +65 -16

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ tags:
 - biology
 ---
 <div align="center">
-  <img src="https://cdn-uploads.huggingface.co/production/uploads/65a9e8563b9e1f0f308378b7/H2qI2OOSl-KqOlg01fRGR.png" width="80%" />
 </div>
 # OneGenomeRice (OGR)
@@ -15,18 +15,67 @@ For instructions, details, and examples, see the project repository [OGR GitHub]
 The table below summarizes training scale and key hyperparameters.
-| Model Specification | OGR |
-| --- | --- |
-| **Model Scale** | |
-| Total Parameters | 1.25B |
-| Activated Parameters | 0.33B |
-| **Architecture** | |
-| Architecture | MoE |
-| Number of Experts | 8 |
-| Selected Experts per Token | 2 |
-| Number of Layers | 12 |
-| Attention Hidden Dimension | 1024 |
-| Number of Attention Heads | 16 (GQA, 8 KV groups) |
-| MoE Hidden Dimension (per Expert) | 4096 |
-| Vocabulary Size | 128 (padded) |
-| Context Length | up to 1M |

 - biology
 ---
 <div align="center">
+  <img src="https://cdn-uploads.huggingface.co/production/uploads/65a9e8563b9e1f0f308378b7/H2qI2OOSl-KqOlg01fRGR.png" width="50%" />
 </div>
 # OneGenomeRice (OGR)
 The table below summarizes training scale and key hyperparameters.
+<div align="center">
+<table>
+  <thead>
+    <tr>
+      <th align="center"><strong>Model Specification</strong></th>
+      <th align="center"><strong>OneGenomeRice (OGR)</strong></th>
+    </tr>
+  </thead>
+  <tbody>
+    <tr>
+      <td align="center" colspan="2"><strong>Model Scale</strong></td>
+    </tr>
+    <tr>
+      <td align="center">Total Parameters</td>
+      <td align="center">1.25B</td>
+    </tr>
+    <tr>
+      <td align="center">Activated Parameters</td>
+      <td align="center">0.33B</td>
+    </tr>
+    <tr>
+      <td align="center" colspan="2"><strong>Architecture</strong></td>
+    </tr>
+    <tr>
+      <td align="center">Architecture</td>
+      <td align="center">MoE</td>
+    </tr>
+    <tr>
+      <td align="center">Number of Experts</td>
+      <td align="center">8</td>
+    </tr>
+    <tr>
+      <td align="center">Selected Experts per Token</td>
+      <td align="center">2</td>
+    </tr>
+    <tr>
+      <td align="center">Number of Layers</td>
+      <td align="center">12</td>
+    </tr>
+    <tr>
+      <td align="center">Attention Hidden Dimension</td>
+      <td align="center">1024</td>
+    </tr>
+    <tr>
+      <td align="center">Number of Attention Heads</td>
+      <td align="center">16 (GQA, 8 KV groups)</td>
+    </tr>
+    <tr>
+      <td align="center">MoE Hidden Dimension (per Expert)</td>
+      <td align="center">4096</td>
+    </tr>
+    <tr>
+      <td align="center">Vocabulary Size</td>
+      <td align="center">128 (padded)</td>
+    </tr>
+    <tr>
+      <td align="center">Context Length</td>
+      <td align="center">up to 1Mb</td>
+    </tr>
+  </tbody>
+</table>
+</div>