monsoon-nlp
/

tinyllama-proteinpretrain-quinoa

license: apache-2.0
base_model: TinyLlama/TinyLlama-1.1B-step-50K-105b
datasets:
  - cerebras/SlimPajama-627B
  - bigcode/starcoderdata
  - monsoon-nlp/greenbeing-proteins
language:
  - en

tinyllama-proteinpretrain-quinoa

Continued pretraining of TinyLLaMA-1.1B on the "research" split (quinoa protein sequences) of GreenBeing-Proteins dataset.

More details TBD