Edit model card

モデル概要

Watashiha-Llama-2-13B-Ogiri-sftLLaVAで学習し、画像に対応した大喜利言語モデルです。
Vision Encoderにはlaion/CLIP-ViT-B-32-laion2B-s34B-b79Kを使用しています。

学習データ

事前学習のデータにはSTAIR Captionsを使用しています。
STAIR Captionsのデータで学習する際、 MS COCO 2014で以下のライセンスが付与されている画像データは使用しないようにしました。

Fine-tuningのデータには以下のデータを使用しています。

使用方法

以下のGoogle Colabのサンプルコードを参考にしてください。
サンプルコード

開発者

  • 内田 達弥 (UCHIDA, Tatsuya)
Downloads last month
5
Safetensors
Model size
13.3B params
Tensor type
BF16
·