aisingapore
/

gemma2-9b-cpt-sea-lionv3-base

@@ -53,24 +53,6 @@ For more details on Gemma2 9B CPT SEA-LIONv3 base benchmark performance, please
 Gemma2 9B CPT SEA-LIONv3 base model was continued pre-trained on 200B tokens of the following data:
-| Data Source               | Unique Tokens (B) | Multiplier | Total Tokens (B) | Percentage (%) |
-|---------------------------|:-----------------:|:----------:|:----------------:|:--------------:|
-| FineWebEdu                |        7.650      |          1 |       7.650      |     15.90      |
-| Stackv2                   |        1.160      |          1 |        1.16      |      9.21      |
-| Dolma Reddit - English    |        1.339      |          1 |       1.339      |      2.42      |
-| Dolma Semantic Scholar    |        0.959      |          1 |       0.959      |      2.79      |
-| Dolma arXiv               |        0.469      |          1 |       0.469      |      1.99      |
-| Dolma StarCoder           |        4.422      |          1 |       4.422      |      0.98      |
-| SEA-LION Pile - Indonesian|          3.4      |          2 |         6.8      |     14.17      |
-| Wiki* - Indonesian        |          0.3      |          4 |         1.2      |      2.50      |
-| SEA-LION Pile - Tamil     |          5.6      |          1 |         5.6      |     11.67      |
-| Wiki* + News - Tamil      |          0.6      |          4 |         2.4      |      5.00      |
-| SEA-LION Pile - Thai      |         2.28      |          1 |        2.28      |      4.75      |
-| WangChanBERTa - Thai      |            5      |          1 |           5      |     10.42      |
-| Wiki* - Thai              |         0.18      |          4 |        0.72      |      1.50      |
-| SEA-LION Pile - Vietnamese|         6.76      |          1 |        6.76      |     14.08      |
-| Wiki* - Vietnamese        |         0.31      |          4 |        1.24      |      2.58      |
 | Data Source                           | Unique Tokens (B) | Multiplier | Total Tokens (B) | Percentage (%)|
 |---------------------------------------|:-----------------:|:----------:|:----------------:|:-------------:|
 | StackV2                               | 40.0              | 1          | 40.0             | 20.00         |
@@ -122,21 +104,21 @@ on the following hardware:
 | Training Details     | Gemma2 9B CPT SEA-LIONv3 |
 |----------------------|:--------------------:|
-| AWS EC2 p5d.24xlarge |          8 instances |
-| Nvidia H100 80GB GPU |          64          |
-| Training Duration    |          2 days      |
 ### Configuration
-| HyperParameter    | Gemma2 9B CPT SEA-LIONv32 |
 |-------------------|:--------------------:|
 | Precision         | bfloat16             |
 | Optimizer         | decoupled_adamw      |
 | Scheduler         | weight_stable_decay  |
 | Learning Rate     | 1.0e-5               |
 | Global Batch Size | 512                  |
-| Micro Batch Size  | 2                    |
 ## The Team

 Gemma2 9B CPT SEA-LIONv3 base model was continued pre-trained on 200B tokens of the following data:
 | Data Source                           | Unique Tokens (B) | Multiplier | Total Tokens (B) | Percentage (%)|
 |---------------------------------------|:-----------------:|:----------:|:----------------:|:-------------:|
 | StackV2                               | 40.0              | 1          | 40.0             | 20.00         |
 | Training Details     | Gemma2 9B CPT SEA-LIONv3 |
 |----------------------|:--------------------:|
+| SingTel HGX-100      |        8+1 instances |
+| Nvidia H100 80GB GPU |        64+8          |
+| Training Duration    |        10 days       |
 ### Configuration
+| HyperParameter    | Gemma2 9B CPT SEA-LIONv3 |
 |-------------------|:--------------------:|
 | Precision         | bfloat16             |
 | Optimizer         | decoupled_adamw      |
 | Scheduler         | weight_stable_decay  |
 | Learning Rate     | 1.0e-5               |
 | Global Batch Size | 512                  |
+| Micro Batch Size  | 1                    |
 ## The Team