llm-jp
/

llm-jp-13b-v2.0

Text Generation

text-generation-inference

Model card Files Files and versions Community

dkawahara commited on Apr 29

Commit

9ae40e1

•

1 Parent(s): ff09ea6

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -111,9 +111,9 @@ Please refer to [README.md](https://github.com/llm-jp/llm-jp-tokenizer) of `llm-
 The models have been pre-trained using a blend of the following datasets.
 | Language | Dataset | Tokens|
-|:---|:---|:---|
 |Japanese|[Wikipedia](https://huggingface.co/datasets/wikipedia)|1.4B
-||[Common Crawl](https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-corpus)|130.7B
 |English|[Wikipedia](https://huggingface.co/datasets/wikipedia)|4.7B
 ||[The Pile](https://huggingface.co/datasets/EleutherAI/pile)|110.3B
 |Codes|[The Stack](https://huggingface.co/datasets/bigcode/the-stack)|8.7B

 The models have been pre-trained using a blend of the following datasets.
 | Language | Dataset | Tokens|
+|:---|:---|---:|
 |Japanese|[Wikipedia](https://huggingface.co/datasets/wikipedia)|1.4B
+||[Common Crawl](https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-corpus-v2)|130.7B
 |English|[Wikipedia](https://huggingface.co/datasets/wikipedia)|4.7B
 ||[The Pile](https://huggingface.co/datasets/EleutherAI/pile)|110.3B
 |Codes|[The Stack](https://huggingface.co/datasets/bigcode/the-stack)|8.7B