michelecafagna26
/

blip-base-captioning-ft-hl-scenes

text2text-generation

image-captioning

Inference Endpoints

Model card Files Files and versions Community

blip-base-captioning-ft-hl-scenes / README.md

michelecafagna26's picture

michelecafagna26

Upload 8 files

5e362fd about 1 year ago

|

No virus

1.66 kB

	---
	license: apache-2.0
	tags:
	- image-captioning
	languages:
	- en
	pipeline_tag: image-to-text
	datasets:
	- michelecafagna26/hl
	language:
	- en
	metrics:
	- sacrebleu
	- rouge
	library_name: transformers
	---
	## BLIP-base fine-tuned for Image Capioning on High-Level descriptions of Scenes

	[BLIP](https://arxiv.org/abs/2201.12086) base trained on the [HL dataset](https://huggingface.co/datasets/michelecafagna26/hl) for high-level descriptions of scenes

	## Model fine-tuning 🏋️‍

	Trained for of 10 epochs
	lr: 5e−5,
	Adam optimizer,
	half-precision (fp16)

	## Test set metrics 🧾

	\| Cider \| SacreBLEU \| Rouge-L \|
	\|--------\|------------\|---------\|
	\| 116.70 \| 26.46 \| 35.30 \|

	## Model in Action 🚀

	```python
	import requests
	from PIL import Image
	from transformers import BlipProcessor, BlipForConditionalGeneration

	processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
	model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base").to("cuda")

	img_url = 'https://datasets-server.huggingface.co/assets/michelecafagna26/hl/--/default/train/0/image/image.jpg'
	raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')


	inputs = processor(raw_image, return_tensors="pt").to("cuda")
	pixel_values = inputs.pixel_values

	generated_ids = model.generate(pixel_values=pixel_values, max_length=50,
	do_sample=True,
	top_k=120,
	top_p=0.9,
	early_stopping=True,
	num_return_sequences=1)

	processor.batch_decode(generated_ids, skip_special_tokens=True)

	>>>
	```

	## BibTex and citation info

	```BibTeX
	```