reaperdoesntknow
/

MoA-150M

Text Generation

Model card Files Files and versions

Metrics Training metrics Community

reaperdoesntknow commited on Sep 22

Commit

f47e179

·

verified ·

1 Parent(s): 66e9d41

Update README.md

Files changed (1) hide show

README.md +2 -0

README.md CHANGED Viewed

@@ -6,6 +6,7 @@ datasets:
 - QingyiSi/Alpaca-CoT
 - HuggingFaceH4/MATH-500
 - zai-org/LongWriter-6k
 language:
 - en
 pipeline_tag: text-generation
@@ -66,6 +67,7 @@ Not intended: safety-critical use, heavy factual QA at web scale, or domains req
 - QingyiSi/Alpaca-CoT ~128K Tokens [2, 1024], [1, 2048] [4, 512]
 - HuggingFaceH4/MATH-500 ~256k Tokens, [8, 256] [4, 512]
 - zai-org/LongWriter-6k ~128k Tokens [2, 1024] [1, 2048]
 Training used modest token budgets (hundreds of thousands). Reported training logs showed healthy loss descent on both 512 and 1024 sequence lengths on CPU runs. Exact metrics will vary with tokenizer, preprocessing, and optimizer settings.

 - QingyiSi/Alpaca-CoT
 - HuggingFaceH4/MATH-500
 - zai-org/LongWriter-6k
+- m-a-p/DeepWriting-20K
 language:
 - en
 pipeline_tag: text-generation
 - QingyiSi/Alpaca-CoT ~128K Tokens [2, 1024], [1, 2048] [4, 512]
 - HuggingFaceH4/MATH-500 ~256k Tokens, [8, 256] [4, 512]
 - zai-org/LongWriter-6k ~128k Tokens [2, 1024] [1, 2048]
+- SFT: prithivMLmods/Deepthink-Reasoning [8, 256] ~ Final Loss 0.3200/ Total Tokens 128512.0
 Training used modest token budgets (hundreds of thousands). Reported training logs showed healthy loss descent on both 512 and 1024 sequence lengths on CPU runs. Exact metrics will vary with tokenizer, preprocessing, and optimizer settings.