markupdm / modeling_markupdm.py

Update modeling_markupdm.py

248b260 verified 2 months ago

10.9 kB

	"""PyTorch MarkupDM model."""

	import contextlib
	import math
	import os
	from typing import Any

	import rff.layers
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from transformers import (
	AutoModel,
	AutoModelForCausalLM,
	GenerationMixin,
	PreTrainedModel,
	)
	from transformers.loss.loss_utils import LOSS_MAPPING
	from transformers.modeling_outputs import CausalLMOutputWithPast
	from transformers.utils import logging

	from .configuration_markupdm import MarkupDMConfig
	from .loss_utils import WeightedCausalLMLoss

	logger = logging.get_logger(__name__)

	LOSS_MAPPING["WeightedCausalLMLoss"] = WeightedCausalLMLoss


	class MarkupDMForCausalLM(PreTrainedModel, GenerationMixin): # type: ignore
	config: MarkupDMConfig
	config_class = MarkupDMConfig

	supports_gradient_checkpointing = True
	_supports_flash_attn_2 = True

	def __init__(
	self,
	config: MarkupDMConfig,
	text_model: PreTrainedModel,
	vision_model: PreTrainedModel,
	) -> None:
	if not isinstance(config, self.config_class):
	raise ValueError(f"Config: {config} has to be of type {self.config_class}")

	# Initialize with config
	logger.info(f"MarkupDM config: {config}")
	super().__init__(config)

	self.text_model = text_model.train()
	self.vision_model = vision_model.eval().requires_grad_(False)

	if self.text_model.config.to_dict() != self.config.text_model.to_dict():
	logger.warning(
	f"Config of the text model: {self.text_model.__class__} is"
	f"overwritten by shared text config: {self.config.text_model}"
	)
	if self.vision_model.config.to_dict() != self.config.vision_model.to_dict():
	logger.warning(
	f"Config of the vision model: {self.vision_model.__class__} is"
	f"overwritten by shared vision config: {self.config.vision_model}"
	)

	# Make sure that the individual model's config refers to the shared config
	# so that the updates to the config will be synced
	self.text_model.config = self.config.text_model
	self.vision_model.config = self.config.vision_model

	# Resize embedding layer
	base_size = self.text_model.config.vocab_size
	if base_size < self.config.vocab_size:
	self.text_model.resize_token_embeddings(self.config.vocab_size)
	new_size = self.text_model.get_input_embeddings().num_embeddings
	logger.info(f"Resize embedding layer from {base_size} to {new_size} tokens")

	d_text = self.text_model.config.hidden_size
	assert self.vision_model.config.model_type == "vqmodel"
	d_vision = self.vision_model.model.embed_dim
	image_pos_size = self.config.image_pos_size
	sigma = self.config.image_pos_sigma
	m = math.ceil(image_pos_size / 2) # (sin, cos)
	self.image_vocab_size = self.vision_model.model.n_embed

	# Define additional layers
	self.proj_vpos = rff.layers.PositionalEncoding(sigma, m)
	self.proj_vt = nn.Linear(d_vision + image_pos_size, d_text)
	self.vis_head = nn.Linear(d_text, self.image_vocab_size)

	# Compute num_image_tokens
	scale_factor = 2 ** (vision_model.model.encoder.num_resolutions - 1)
	latent_size = self.config.image_size // scale_factor
	self.num_image_tokens = latent_size**2

	# Initialize weights and apply final processing
	self.post_init()

	# Freeze text embeddings if needed
	if config.freeze_text_embeddings:
	self.text_model.get_input_embeddings().requires_grad_(False)

	def tie_weights(self) -> None:
	self.text_model.tie_weights()

	@classmethod
	def from_pretrained(cls, args: Any, *kwargs: Any) -> "MarkupDMForCausalLM":
	assert "config" in kwargs, "Config must be provided"
	config = kwargs["config"]
	dtype = kwargs.get("dtype", kwargs.get("torch_dtype", None))

	# Initialize text model
	text_model = AutoModelForCausalLM.from_config(
	config.text_model,
	dtype=dtype,
	attn_implementation=config._attn_implementation,
	)

	# Initialize vision model
	with contextlib.redirect_stdout(open(os.devnull, "w")):
	vision_model = AutoModel.from_config(
	config.vision_model,
	trust_remote_code=True,
	dtype=dtype,
	)

	return super().from_pretrained( # type: ignore
	*args,
	**kwargs,
	text_model=text_model,
	vision_model=vision_model,
	)

	def forward(
	self,
	input_ids: torch.Tensor,
	inputs_embeds: torch.Tensor \| None = None,
	image_mask: torch.Tensor \| None = None,
	image_pos_ids: torch.Tensor \| None = None,
	labels: torch.Tensor \| None = None,
	attention_mask: torch.Tensor \| None = None,
	position_ids: torch.Tensor \| None = None,
	past_key_values: tuple[tuple[torch.Tensor]] \| None = None,
	use_cache: bool \| None = None,
	output_attentions: bool \| None = None,
	output_hidden_states: bool \| None = None,
	return_dict: bool \| None = None,
	cache_position: torch.Tensor \| None = None,
	num_items_in_batch: int \| None = None,
	**kwargs: Any,
	) -> CausalLMOutputWithPast:
	for key in kwargs.keys():
	if kwargs[key] is not None:
	raise ValueError(f"Unknown argument: {key}={kwargs[key]}")

	output_attentions = (
	output_attentions
	if output_attentions is not None
	else self.config.output_attentions
	)
	output_hidden_states = (
	output_hidden_states
	if output_hidden_states is not None
	else self.config.output_hidden_states
	)
	return_dict = (
	return_dict if return_dict is not None else self.config.use_return_dict
	)

	if image_mask is None:
	image_mask = input_ids >= self.config.vocab_size

	# Embed inputs
	if inputs_embeds is None:
	inputs_embeds = self.embed_tokens(
	input_ids,
	image_mask=image_mask,
	image_pos_ids=image_pos_ids,
	)

	# Core forward pass
	fwd_kwargs = {
	"inputs_embeds": inputs_embeds,
	"attention_mask": attention_mask,
	"position_ids": position_ids,
	"past_key_values": past_key_values,
	"use_cache": use_cache,
	"output_hidden_states": True,
	"output_attentions": output_attentions,
	}
	if self.config.text_model.model_type == "starcoder2":
	fwd_kwargs["cache_position"] = cache_position
	outputs = self.text_model(**fwd_kwargs)

	# text_logits: (B, L, V)
	text_logits = outputs.logits[:, :, : self.config.vocab_size]

	# vision_logits: (B, L, C)
	last_hidden_states = outputs.hidden_states[-1]
	vision_logits = self.vis_head(last_hidden_states)

	if labels is not None:
	# Mask logits with shifted image mask
	shift_mask = F.pad(image_mask[:, 1:], (0, 1), value=False)
	text_logits[shift_mask] = -float("inf")
	vision_logits[~shift_mask] = -float("inf")

	# Concatenate text and vision logits
	logits = torch.cat([text_logits, vision_logits], dim=-1)

	loss = None
	if labels is not None:
	loss = self.loss_function(
	logits=logits,
	labels=labels,
	image_vocab_size=self.image_vocab_size,
	image_loss_weight=self.config.image_loss_weight,
	num_items_in_batch=num_items_in_batch,
	**kwargs,
	)

	if not return_dict:
	output = (logits,) + outputs[1:]
	return (loss,) + output if loss is not None else output

	return CausalLMOutputWithPast(
	loss=loss,
	logits=logits,
	past_key_values=outputs.past_key_values,
	hidden_states=outputs.hidden_states if output_hidden_states else None,
	attentions=outputs.attentions,
	)

	def embed_tokens(
	self,
	input_ids: torch.Tensor,
	image_mask: torch.Tensor \| None = None,
	image_pos_ids: torch.Tensor \| None = None,
	) -> torch.Tensor:
	if image_mask is None:
	return self.text_embed(input_ids) # type: ignore

	# Prepare placeholders
	size = input_ids.size() + (self.text_model.config.hidden_size,)
	inputs_embeds = torch.zeros(size, device=self.device, dtype=self.dtype)

	# Embed text ids
	text_embeds = self.text_embed(input_ids[~image_mask])
	inputs_embeds[~image_mask] = text_embeds

	# Embed image ids
	image_embeds = self.vis_embed(input_ids[image_mask] - self.config.vocab_size)

	# Concatenate positional embeddings
	assert image_pos_ids is not None
	image_pos = image_pos_ids / self.num_image_tokens
	image_pos = self.proj_vpos(image_pos.unsqueeze(-1)).to(image_embeds)
	image_pos = image_pos[image_mask][:, : self.config.image_pos_size]
	image_embeds = torch.cat([image_embeds, image_pos], dim=-1) # type: ignore

	# Project image features and update inputs_embeds
	image_embeds = self.proj_vt(image_embeds)
	inputs_embeds[image_mask] = image_embeds

	return inputs_embeds

	def text_embed(self, input_ids: torch.Tensor) -> torch.Tensor:
	return self.text_model.get_input_embeddings()(input_ids) # type: ignore

	def vis_embed(self, input_ids: torch.Tensor) -> torch.Tensor:
	return self.vision_model.model.quantize.embedding(input_ids) # type: ignore

	def prepare_inputs_for_generation(
	self, input_ids: torch.Tensor, **model_kwargs: Any
	) -> dict:
	# Prepare inputs with the default function
	default_prepare_inputs = self.text_model.prepare_inputs_for_generation
	inputs = default_prepare_inputs(input_ids, **model_kwargs)

	# Compute image_pos_ids
	base_ids = torch.arange(self.num_image_tokens, device=self.device)
	image_pos_ids = torch.zeros_like(input_ids)
	image_mask_all = input_ids >= self.config.vocab_size
	for i_batch, image_mask in enumerate(image_mask_all):
	N = sum(image_mask)
	pos_ids = base_ids.repeat(N // self.num_image_tokens + 1)
	image_pos_ids[i_batch, image_mask] = pos_ids[:N]
	length = inputs["input_ids"].size(1)
	inputs["image_pos_ids"] = image_pos_ids[:, -length:]

	inputs["image_mask"] = inputs["input_ids"] >= self.config.vocab_size

	return inputs # type: ignore