mamba-1.4b / README.md
chatblanc-ciel's picture
Update README.md
fe121ef verified
metadata
license: apache-2.0
datasets:
  - HuggingFaceFW/fineweb
  - llm-book/llm-jp-eval
language:
  - ja
  - en
base_model:
  - state-spaces/mamba-1.4b

Descriptions

SSMモデルにより、LLMの厳しいハードウェア要求を引き下げることを目的にトレーニングしたモデル。 特に日本語への応答を滑らかにすることが主眼。

Result

モデルサイズのためか、学習ステップ数のためかあまりよい応答を返すようにならなかった。