update

Browse files

Files changed (3) hide show

config.json +4 -3
mllama_audio_model.py +1 -34
modeling_llama3.py +9 -398

config.json CHANGED Viewed

@@ -4,7 +4,8 @@
     "Llama3ForConditionalGeneration"
   ],
   "audio_config": {
-    "_attn_implementation_autoset": true,
     "_name_or_path": "",
     "activation_dropout": 0.0,
     "adapter_act": "relu",
@@ -143,8 +144,8 @@
   "auto_map": {
     "AutoConfig": "AlexHung29629/test_mllama_11B_v3--configuration_llama3.Llama3Config",
     "AutoModel": "AlexHung29629/test_mllama_11B_v3--modeling_llama3.Llama3ForConditionalGeneration",
-    "AutoModelForCausalLM": "AlexHung29629/test_mllama_11B_v3--modeling_llama3.Llama3ForCausalLM",
-    "AutoProcessor": "AlexHung29629/test_mllama_11B_v3--processing_mllama.MllamaProcessor"
   },
   "image_token_index": 128256,
   "model_type": "llama3",

     "Llama3ForConditionalGeneration"
   ],
   "audio_config": {
+    "_attn_implementation_autoset": false,
+    "_attn_implementation": "eager",
     "_name_or_path": "",
     "activation_dropout": 0.0,
     "adapter_act": "relu",
   "auto_map": {
     "AutoConfig": "AlexHung29629/test_mllama_11B_v3--configuration_llama3.Llama3Config",
     "AutoModel": "AlexHung29629/test_mllama_11B_v3--modeling_llama3.Llama3ForConditionalGeneration",
+    "AutoProcessor": "AlexHung29629/test_mllama_11B_v3--processing_mllama.MllamaProcessor",
+    "AutoFeatureExtractor": "AlexHung29629/test_mllama_11B_v3--audio_processing_mllama.MllamaAudioFeatureExtractor"
   },
   "image_token_index": 128256,
   "model_type": "llama3",

mllama_audio_model.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from typing import Optional, Tuple, Union
 import torch
 from torch import nn
 from transformers.modeling_outputs import BaseModelOutput
@@ -14,43 +15,9 @@ class Llama3Embedding(Wav2Vec2BertPreTrainedModel):
         assert config.output_hidden_size == text_config.hidden_size
         self.text_embeddings = nn.Embedding(text_config.vocab_size, text_config.hidden_size, text_config.pad_token_id)
         self.audio_embedding = Wav2Vec2BertModel(config)
-        #assert self.text_embeddings.weight.size(-1) == text_config.hidden_size, f"{self.text_embeddings.weight}, {text_config.hidden_size=}, {text_config.vocab_size=}"
         self.start_of_audio = nn.Parameter(data=torch.zeros((1, config.output_hidden_size)), requires_grad=True)
         self.end_of_audio = nn.Parameter(data=torch.zeros((1, config.output_hidden_size)), requires_grad=True)
         self.text_config = text_config
-    def _init_weights(self, module):
-        std = self.text_config.initializer_range
-        """Initialize the weights"""
-        if isinstance(module, Wav2Vec2BertSelfAttention):
-            if hasattr(module, "pos_bias_u"):
-                nn.init.xavier_uniform_(module.pos_bias_u)
-            if hasattr(module, "pos_bias_v"):
-                nn.init.xavier_uniform_(module.pos_bias_v)
-        elif isinstance(module, Wav2Vec2BertFeatureProjection):
-            k = math.sqrt(1 / module.projection.in_features)
-            nn.init.uniform_(module.projection.weight, a=-k, b=k)
-            nn.init.uniform_(module.projection.bias, a=-k, b=k)
-        elif isinstance(module, nn.Linear):
-            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
-            if module.bias is not None:
-                module.bias.data.zero_()
-        elif isinstance(module, (nn.LayerNorm, nn.GroupNorm)):
-            module.bias.data.zero_()
-            module.weight.data.fill_(1.0)
-        elif isinstance(module, nn.Conv1d):
-            nn.init.kaiming_normal_(module.weight)
-            if module.bias is not None:
-                k = math.sqrt(module.groups / (module.in_channels * module.kernel_size[0]))
-                nn.init.uniform_(module.bias, a=-k, b=k)
-        elif isinstance(module, nn.Embedding):
-            module.weight.data.normal_(mean=0.0, std=std)
-            if module.padding_idx is not None:
-                module.weight.data[module.padding_idx].zero_()
-        elif isinstance(module, nn.Parameter):
-            module.data.normal_(mean=0.0, std=std)
     def forward(
         self,

 from typing import Optional, Tuple, Union
+import math
 import torch
 from torch import nn
 from transformers.modeling_outputs import BaseModelOutput
         assert config.output_hidden_size == text_config.hidden_size
         self.text_embeddings = nn.Embedding(text_config.vocab_size, text_config.hidden_size, text_config.pad_token_id)
         self.audio_embedding = Wav2Vec2BertModel(config)
         self.start_of_audio = nn.Parameter(data=torch.zeros((1, config.output_hidden_size)), requires_grad=True)
         self.end_of_audio = nn.Parameter(data=torch.zeros((1, config.output_hidden_size)), requires_grad=True)
         self.text_config = text_config
     def forward(
         self,

modeling_llama3.py CHANGED Viewed

@@ -6,405 +6,17 @@ import torch.utils.checkpoint
 from torch import nn
 import transformers
-from transformers import MllamaPreTrainedModel, MllamaVisionModel, MllamaForCausalLM, Wav2Vec2BertConfig, AutoModel, AutoModelForCausalLM
-from transformers.cache_utils import Cache, StaticCache
 from transformers.generation import GenerationMixin
-from transformers.modeling_attn_mask_utils import AttentionMaskConverter
-from transformers.modeling_outputs import CausalLMOutputWithPast, BaseModelOutputWithPast
 from transformers.utils import logging
-from transformers.models.mllama.modeling_mllama import _prepare_cross_attention_mask, MllamaCrossAttentionDecoderLayer, MllamaSelfAttentionDecoderLayer, MllamaTextRMSNorm, MllamaRotaryEmbedding
-from transformers.models.mllama.configuration_mllama import MllamaTextConfig
 from .configuration_llama3 import Llama3Config
 from .mllama_audio_model import Llama3Embedding
 logger = logging.get_logger(__name__)
-class Llama3PreTrainedModel(MllamaPreTrainedModel):
-    config_class = Llama3Config
-    base_model_prefix = "model"
-class Llama3TextModel(MllamaPreTrainedModel):
-    config_class = MllamaTextConfig
-    base_model_prefix = "language_model.model"
-    def __init__(self, config: MllamaTextConfig):
-        super().__init__(config)
-        self.padding_idx = config.pad_token_id
-        self.vocab_size = config.vocab_size
-        #self.embed_tokens = Llama3Embedding(audio_config, config)
-        self.cross_attention_layers = config.cross_attention_layers
-        layers = []
-        for layer_idx in range(config.num_hidden_layers):
-            if layer_idx in self.cross_attention_layers:
-                layers.append(MllamaCrossAttentionDecoderLayer(config, layer_idx))
-            else:
-                layers.append(MllamaSelfAttentionDecoderLayer(config, layer_idx))
-        self.layers = nn.ModuleList(layers)
-        self.norm = MllamaTextRMSNorm(config.hidden_size, eps=config.rms_norm_eps)
-        self.rotary_emb = MllamaRotaryEmbedding(config=config)
-        self.gradient_checkpointing = False
-        self.post_init()
-    def get_input_embeddings(self):
-        #return self.embed_tokens.text_embeddings
-        return None
-    def set_input_embeddings(self, value):
-        #self.embed_tokens.text_embeddings = value
-        pass
-    def forward(
-        self,
-        #input_ids: Optional[torch.LongTensor] = None,
-        #audio_features: Optional[torch.Tensor] = None,
-        attention_mask: Optional[torch.Tensor] = None,
-        position_ids: Optional[torch.LongTensor] = None,
-        cross_attention_states: Optional[torch.FloatTensor] = None,
-        cross_attention_mask: Optional[torch.Tensor] = None,
-        full_text_row_masked_out_mask: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,
-        past_key_values: Optional[Union[Cache, List[torch.FloatTensor]]] = None,
-        inputs_embeds: Optional[torch.FloatTensor] = None,
-        use_cache: Optional[bool] = None,
-        output_attentions: Optional[bool] = None,
-        output_hidden_states: Optional[bool] = None,
-        return_dict: Optional[bool] = None,
-        cache_position: Optional[torch.LongTensor] = None,
-    ) -> Union[Tuple, BaseModelOutputWithPast]:
-        """
-        Returns:
-        Example:
-        ```python
-        >>> from transformers import AutoProcessor, MllamaTextModel
-        >>> checkpoint = "meta-llama/Llama-3.2-11B-Vision"
-        >>> model = MllamaTextModel.from_pretrained(checkpoint)
-        >>> processor = AutoProcessor.from_pretrained(checkpoint)
-        >>> text = "<|image|>If I had to write a haiku for this one"
-        >>> inputs = processor(text=text, return_tensors="pt")
-        >>> output = model(**inputs)
-        >>> print(output.last_hidden_state.shape)
-        torch.Size([1, 13, 4096])
-        ```
-        """
-        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
-        output_hidden_states = (
-            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
-        )
-        use_cache = use_cache if use_cache is not None else self.config.use_cache
-        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        #if (input_ids is None) ^ (inputs_embeds is not None):
-        #    raise ValueError("You must specify exactly one of input_ids or inputs_embeds")
-        if self.gradient_checkpointing and self.training and use_cache:
-            logger.warning_once(
-                "`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`."
-            )
-            use_cache = False
-        #if inputs_embeds is None:
-        #    inputs_embeds = self.embed_tokens(input_ids=input_ids, audio_features=audio_features)
-        hidden_states = inputs_embeds
-        if cache_position is None:
-            past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
-            cache_position = torch.arange(
-                past_seen_tokens, past_seen_tokens + inputs_embeds.shape[1], device=inputs_embeds.device
-            )
-        if position_ids is None:
-            position_ids = cache_position.unsqueeze(0)
-        causal_mask = self._update_causal_mask(
-            attention_mask, inputs_embeds, cache_position, past_key_values, output_attentions
-        )
-        # create position embeddings to be shared across the decoder layers
-        position_embeddings = self.rotary_emb(hidden_states, position_ids)
-        # decoder layers
-        all_hidden_states = () if output_hidden_states else None
-        all_self_attns = () if output_attentions else None
-        next_decoder_cache = None
-        for idx, decoder_layer in enumerate(self.layers):
-            if output_hidden_states:
-                all_hidden_states += (hidden_states,)
-            # For text-only path we should skip cross attention layers.
-            # Let's check if the layer is cross attention layer and if we have cross attention states
-            # or cached cross attention states.
-            is_cross_attention_layer = idx in self.cross_attention_layers
-            is_cross_attention_cache_empty = past_key_values is None or (
-                past_key_values is not None and past_key_values.get_seq_length(idx) == 0
-            )
-            if is_cross_attention_layer and cross_attention_states is None and is_cross_attention_cache_empty:
-                continue
-            if self.gradient_checkpointing and self.training:
-                layer_outputs = self._gradient_checkpointing_func(
-                    decoder_layer.__call__,
-                    hidden_states,
-                    cross_attention_states,
-                    cross_attention_mask,
-                    causal_mask,
-                    full_text_row_masked_out_mask,
-                    position_ids,
-                    past_key_values,
-                    output_attentions,
-                    use_cache,
-                    cache_position,
-                    position_embeddings,
-                )
-            else:
-                layer_outputs = decoder_layer(
-                    hidden_states,
-                    cross_attention_states=cross_attention_states,
-                    cross_attention_mask=cross_attention_mask,
-                    attention_mask=causal_mask,
-                    full_text_row_masked_out_mask=full_text_row_masked_out_mask,
-                    position_ids=position_ids,
-                    past_key_value=past_key_values,
-                    output_attentions=output_attentions,
-                    use_cache=use_cache,
-                    cache_position=cache_position,
-                    position_embeddings=position_embeddings,
-                )
-            hidden_states = layer_outputs[0]
-            if use_cache:
-                next_decoder_cache = layer_outputs[2 if output_attentions else 1]
-            if output_attentions:
-                all_self_attns += (layer_outputs[1],)
-        hidden_states = self.norm(hidden_states)
-        # add hidden states from the last decoder layer
-        if output_hidden_states:
-            all_hidden_states += (hidden_states,)
-        next_cache = next_decoder_cache if use_cache else None
-        if not return_dict:
-            return tuple(v for v in [hidden_states, next_cache, all_hidden_states, all_self_attns] if v is not None)
-        return BaseModelOutputWithPast(
-            last_hidden_state=hidden_states,
-            past_key_values=next_cache,
-            hidden_states=all_hidden_states,
-            attentions=all_self_attns,
-        )
-    # Copied from transformers.models.llama.modeling_llama.LlamaModel._update_causal_mask
-    def _update_causal_mask(
-        self,
-        attention_mask: torch.Tensor,
-        input_tensor: torch.Tensor,
-        cache_position: torch.Tensor,
-        past_key_values: Cache,
-        output_attentions: bool,
-    ):
-        if self.config._attn_implementation == "flash_attention_2":
-            if attention_mask is not None and 0.0 in attention_mask:
-                return attention_mask
-            return None
-        # For SDPA, when possible, we will rely on its `is_causal` argument instead of its `attn_mask` argument, in
-        # order to dispatch on Flash Attention 2. This feature is not compatible with static cache, as SDPA will fail
-        # to infer the attention mask.
-        past_seen_tokens = past_key_values.get_seq_length() if past_key_values is not None else 0
-        using_static_cache = isinstance(past_key_values, StaticCache)
-        # When output attentions is True, sdpa implementation's forward method calls the eager implementation's forward
-        if self.config._attn_implementation == "sdpa" and not using_static_cache and not output_attentions:
-            if AttentionMaskConverter._ignore_causal_mask_sdpa(
-                attention_mask,
-                inputs_embeds=input_tensor,
-                past_key_values_length=past_seen_tokens,
-                is_training=self.training,
-            ):
-                return None
-        dtype, device = input_tensor.dtype, input_tensor.device
-        sequence_length = input_tensor.shape[1]
-        if using_static_cache:
-            target_length = past_key_values.get_max_cache_shape()
-        else:
-            target_length = (
-                attention_mask.shape[-1]
-                if isinstance(attention_mask, torch.Tensor)
-                else past_seen_tokens + sequence_length + 1
-            )
-        # In case the provided `attention` mask is 2D, we generate a causal mask here (4D).
-        causal_mask = self._prepare_4d_causal_attention_mask_with_cache_position(
-            attention_mask,
-            sequence_length=sequence_length,
-            target_length=target_length,
-            dtype=dtype,
-            device=device,
-            cache_position=cache_position,
-            batch_size=input_tensor.shape[0],
-        )
-        if (
-            self.config._attn_implementation == "sdpa"
-            and attention_mask is not None
-            and attention_mask.device.type == "cuda"
-            and not output_attentions
-        ):
-            # Attend to all tokens in fully masked rows in the causal_mask, for example the relevant first rows when
-            # using left padding. This is required by F.scaled_dot_product_attention memory-efficient attention path.
-            # Details: https://github.com/pytorch/pytorch/issues/110213
-            min_dtype = torch.finfo(dtype).min
-            causal_mask = AttentionMaskConverter._unmask_unattended(causal_mask, min_dtype)
-        return causal_mask
-    @staticmethod
-    # Copied from transformers.models.llama.modeling_llama.LlamaModel._prepare_4d_causal_attention_mask_with_cache_position
-    def _prepare_4d_causal_attention_mask_with_cache_position(
-        attention_mask: torch.Tensor,
-        sequence_length: int,
-        target_length: int,
-        dtype: torch.dtype,
-        device: torch.device,
-        cache_position: torch.Tensor,
-        batch_size: int,
-        **kwargs,
-    ):
-        if attention_mask is not None and attention_mask.dim() == 4:
-            # In this case we assume that the mask comes already in inverted form and requires no inversion or slicing.
-            causal_mask = attention_mask
-        else:
-            min_dtype = torch.finfo(dtype).min
-            causal_mask = torch.full(
-                (sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device
-            )
-            if sequence_length != 1:
-                causal_mask = torch.triu(causal_mask, diagonal=1)
-            causal_mask *= torch.arange(target_length, device=device) > cache_position.reshape(-1, 1)
-            causal_mask = causal_mask[None, None, :, :].expand(batch_size, 1, -1, -1)
-            if attention_mask is not None:
-                causal_mask = causal_mask.clone()  # copy to contiguous memory for in-place edit
-                mask_length = attention_mask.shape[-1]
-                padding_mask = causal_mask[:, :, :, :mask_length] + attention_mask[:, None, None, :]
-                padding_mask = padding_mask == 0
-                causal_mask[:, :, :, :mask_length] = causal_mask[:, :, :, :mask_length].masked_fill(
-                    padding_mask, min_dtype
-                )
-        return causal_mask
-class Llama3ForCausalLM(MllamaPreTrainedModel, GenerationMixin):
-    config_class = MllamaTextConfig
-    base_model_prefix = "model"
-    #_tied_weights_keys = ["lm_head.weight"]
-    def __init__(self, config: MllamaTextConfig):
-        super().__init__(config.get_text_config())
-        self.text_config = config.get_text_config()
-        self.vocab_size = self.text_config.vocab_size
-        self.model = Llama3TextModel._from_config(self.text_config, attn_implementation=config._attn_implementation)
-        self.lm_head = nn.Linear(self.text_config.hidden_size, self.vocab_size, bias=False)
-        self.post_init()
-    def get_input_embeddings(self):
-        #return self.model.embed_tokens.text_embeddings
-        return None
-    def set_input_embeddings(self, value):
-        #self.model.embed_tokens.text_embeddings = value
-        pass
-    def get_output_embeddings(self):
-        return self.lm_head
-    def set_output_embeddings(self, new_embeddings):
-        self.lm_head = new_embeddings
-    def set_decoder(self, decoder):
-        self.model = decoder
-    def get_decoder(self):
-        return self.model
-    def forward(
-        self,
-        #input_ids: torch.LongTensor = None,
-        attention_mask: Optional[torch.Tensor] = None,
-        position_ids: Optional[torch.LongTensor] = None,
-        cross_attention_states: Optional[torch.LongTensor] = None,
-        cross_attention_mask: Optional[torch.LongTensor] = None,
-        full_text_row_masked_out_mask: Optional[Tuple[torch.Tensor, torch.Tensor]] = None,
-        past_key_values: Optional[Union[Cache, List[torch.FloatTensor]]] = None,
-        inputs_embeds: Optional[torch.FloatTensor] = None,
-        labels: Optional[torch.LongTensor] = None,
-        use_cache: Optional[bool] = None,
-        output_attentions: Optional[bool] = None,
-        output_hidden_states: Optional[bool] = None,
-        return_dict: Optional[bool] = None,
-        cache_position: Optional[torch.LongTensor] = None,
-        num_logits_to_keep: int = 0,
-        **loss_kwargs,
-    ) -> Union[Tuple, CausalLMOutputWithPast]:
-        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
-        output_hidden_states = (
-            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
-        )
-        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
-        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
-        outputs = self.model(
-            #input_ids=input_ids,
-            cross_attention_states=cross_attention_states,
-            attention_mask=attention_mask,
-            position_ids=position_ids,
-            cross_attention_mask=cross_attention_mask,
-            full_text_row_masked_out_mask=full_text_row_masked_out_mask,
-            past_key_values=past_key_values,
-            inputs_embeds=inputs_embeds,
-            use_cache=use_cache,
-            output_attentions=output_attentions,
-            output_hidden_states=output_hidden_states,
-            return_dict=return_dict,
-            cache_position=cache_position,
-        )
-        hidden_states = outputs[0]
-        logits = self.lm_head(hidden_states[:, -num_logits_to_keep:, :]).float()
-        loss = None
-        if labels is not None:
-            loss = self.loss_function(logits, labels, self.vocab_size, **loss_kwargs)
-        if not return_dict:
-            output = (logits,) + outputs[1:]
-            return (loss,) + output if loss is not None else output
-        return CausalLMOutputWithPast(
-            loss=loss,
-            logits=logits,
-            past_key_values=outputs.past_key_values,
-            hidden_states=outputs.hidden_states,
-            attentions=outputs.attentions,
-        )
-#AutoModelForCausalLM.register(MllamaTextConfig, Llama3ForCausalLM)
-#transformers.Llama3ForCausalLM = Llama3ForCausalLM
 class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
     config_class = Llama3Config
@@ -421,7 +33,6 @@ class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
         self.vision_model = MllamaVisionModel._from_config(config.vision_config)
         self.language_model = MllamaForCausalLM._from_config(config.text_config)
-        self.language_model.get_input_embeddings().weight.required_grad = False
         self.embed_tokens = Llama3Embedding(config.audio_config, config.text_config)
         self.multi_modal_projector = nn.Linear(
             config.vision_config.vision_output_dim,
@@ -431,10 +42,10 @@ class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
         self.post_init()
     def get_input_embeddings(self):
-        return self.language_model.get_input_embeddings()
     def set_input_embeddings(self, value):
-        self.language_model.set_input_embeddings(value)
     def get_output_embeddings(self):
         return self.language_model.get_output_embeddings()
@@ -565,8 +176,8 @@ class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
             inputs_embeds = self.embed_tokens(input_ids=input_ids, audio_features=audio_features)
         outputs = self.language_model(
-            #input_ids=input_ids,
-            #audio_features=audio_features,
             attention_mask=attention_mask,
             position_ids=position_ids,
             cross_attention_states=cross_attention_states,
@@ -670,5 +281,5 @@ class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
             )
         return model_kwargs
-#AutoModel.register(Llama3Config, Llama3ForConditionalGeneration)
-#transformers.Llama3ForConditionalGeneration = Llama3ForConditionalGeneration

 from torch import nn
 import transformers
+from transformers import MllamaPreTrainedModel, MllamaVisionModel, MllamaForCausalLM, AutoModel
 from transformers.generation import GenerationMixin
+from transformers.modeling_outputs import CausalLMOutputWithPast
 from transformers.utils import logging
+from transformers.models.mllama.modeling_mllama import _prepare_cross_attention_mask
 from .configuration_llama3 import Llama3Config
 from .mllama_audio_model import Llama3Embedding
 logger = logging.get_logger(__name__)
 class Llama3ForConditionalGeneration(MllamaPreTrainedModel, GenerationMixin):
     config_class = Llama3Config
         self.vision_model = MllamaVisionModel._from_config(config.vision_config)
         self.language_model = MllamaForCausalLM._from_config(config.text_config)
         self.embed_tokens = Llama3Embedding(config.audio_config, config.text_config)
         self.multi_modal_projector = nn.Linear(
             config.vision_config.vision_output_dim,
         self.post_init()
     def get_input_embeddings(self):
+        return self.embed_tokens.text_embeddings
     def set_input_embeddings(self, value):
+        self.embed_tokens.text_embeddings = value
     def get_output_embeddings(self):
         return self.language_model.get_output_embeddings()
             inputs_embeds = self.embed_tokens(input_ids=input_ids, audio_features=audio_features)
         outputs = self.language_model(
+            input_ids=None,
+            audio_features=None,
             attention_mask=attention_mask,
             position_ids=position_ids,
             cross_attention_states=cross_attention_states,
             )
         return model_kwargs
+AutoModel.register(Llama3Config, Llama3ForConditionalGeneration)
+transformers.Llama3ForConditionalGeneration = Llama3ForConditionalGeneration