metadata

language: ja
tags:
  - vl-t5
license: cc-by-sa-4.0
datasets:
  - wikipedia
  - oscar
  - cc100
  - ms_coco
  - visual_genome
  - coco_captions
  - vqa
  - gqa

日本語VL-T5事前学習済みモデル

This is a VL-T5 (Unifying Vision-and-Language Tasks via Text Generation) model pretrained on Japanese corpus.

日本語コーパスを用いて事前学習を行ったVL-T5 (Unifying Vision-and-Language Tasks via Text Generation) モデルです。

VL-T5の論文: https://arxiv.org/abs/2102.02779
推論例 (要Google Colab): https://colab.research.google.com/github/sonoisa/VL-T5-ja/blob/master/日本語VL-T5推論.ipynb