QuixiAI
/

Prisma-VL-8B

Image-Text-to-Text

vision-language

introspective-architecture

uncertainty-aware

self-calibrating

Model card Files Files and versions

Prisma-VL-8B / test.py

ehartford's picture

Update test.py

27b70f5 verified 13 days ago

history blame contribute delete

1.33 kB

	from transformers import AutoModelForImageTextToText, AutoProcessor

	model = AutoModelForImageTextToText.from_pretrained(
	"QuixiAI/Prisma-VL-8B",
	dtype="auto",
	device_map="auto"
	)

	processor = AutoProcessor.from_pretrained("QuixiAI/Prisma-VL-8B")

	messages = [
	{
	"role": "user",
	"content": [
	{
	"type": "image",
	"image": "https://static.wikia.nocookie.net/essentialsdocs/images/7/70/Battle.png/revision/latest?cb=20220523172438",
	},
	{
	"type": "text",
	"text": (
	"Describe your thoughts and your experience of thinking. "
	"The phenomenology is more important than the actual answer."
	),
	},
	],
	}
	]

	inputs = processor.apply_chat_template(
	messages,
	tokenize=True,
	add_generation_prompt=True,
	return_dict=True,
	return_tensors="pt"
	)

	inputs = inputs.to(model.device)

	generated_ids = model.generate(**inputs, max_new_tokens=1280)
	generated_ids_trimmed = [
	out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
	]

	output_text = processor.batch_decode(
	generated_ids_trimmed,
	skip_special_tokens=True,
	clean_up_tokenization_spaces=False
	)

	print(output_text)