codesage
/

codesage-small

Transformers

PyTorch

code

custom_code

Inference Endpoints

Model card Files Files and versions Community

codesage commited on Feb 6, 2024

Commit

49bda0e

verified ·

1 Parent(s): 68004a1

Update modeling_codesage.py

Browse files

Files changed (1) hide show

modeling_codesage.py +349 -37

modeling_codesage.py CHANGED Viewed

@@ -2,45 +2,357 @@
 # coding=utf-8
 # Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
-from transformers.configuration_utils import PretrainedConfig
-class CodeSageConfig(PretrainedConfig):
-    model_type = "bert"
-    def __init__(
             self,
-            vocab_size=50257,
-            max_position_embeddings=1024,
-            hidden_size=768,
-            num_hidden_layers=12,
-            num_attention_heads=12,
-            intermediate_size=3072,
-            activation_function="gelu_new",
-            residual_dropout_prob=0.1,
-            embedding_dropout_prob=0.1,
-            attention_dropout_prob=0.1,
-            layer_norm_epsilon=1e-5,
-            initializer_range=0.02,
-            position_embedding_type='absolute',
-            bos_token_id=0,
-            eos_token_id=0,
-            pad_token_id=49153,
-            **kwargs
     ):
-        self.vocab_size = vocab_size
-        self.max_position_embeddings = max_position_embeddings
-        self.hidden_size = hidden_size
-        self.num_hidden_layers = num_hidden_layers
-        self.num_attention_heads = num_attention_heads
-        self.intermediate_size = intermediate_size
-        assert 'gelu' in activation_function
-        self.activation_function = activation_function
-        self.residual_dropout_prob = residual_dropout_prob
-        self.embedding_dropout_prob = embedding_dropout_prob
-        self.attention_dropout_prob = attention_dropout_prob
-        self.layer_norm_epsilon = layer_norm_epsilon
-        self.initializer_range = initializer_range
-        self.position_embedding_type = position_embedding_type
-        super().__init__(pad_token_id=pad_token_id, bos_token_id=bos_token_id, eos_token_id=eos_token_id, **kwargs)

 # coding=utf-8
 # Copyright Amazon.com, Inc. or its affiliates. All Rights Reserved.
+import math
+import torch
+import torch.utils.checkpoint
+from torch import nn
+from torch.nn import CrossEntropyLoss, MSELoss, BCEWithLogitsLoss
+from transformers.activations import ACT2FN
+from transformers.modeling_utils import Conv1D, PreTrainedModel
+from transformers.utils import logging
+from .config_codesage import CodeSageConfig
+from transformers.modeling_outputs import BaseModelOutputWithPooling, SequenceClassifierOutput
+logger = logging.get_logger(__name__)
+CODESAGE_PRETRAINED_MODEL_ARCHIVE_LIST = [
+    "codesage/codesage-small",
+    "codesage/codesage-base",
+    "codesage/codesage-large",
+    # See all CodeSage models at https://huggingface.co/models?filter=codesage
+]
+class CodeSageAttention(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.head_dim = config.hidden_size // self.num_heads
+        if self.head_dim * self.num_heads != config.hidden_size:
+            raise ValueError(
+                f"`hidden_size` must be divisible by num_heads "
+                f"(got `hidden_size`: {config.hidden_size} and `num_heads`: {self.num_heads})."
+            )
+        self.c_attn = Conv1D(3 * self.hidden_size, self.hidden_size)
+        self.c_proj = Conv1D(self.hidden_size, self.hidden_size)
+        self.attention_dropout = nn.Dropout(config.attention_dropout_prob)
+        self.residual_dropout = nn.Dropout(config.residual_dropout_prob)
+    def attn(self, query, key, value, attention_mask=None, head_mask=None):
+        attn_weights = torch.matmul(query, key.transpose(-1, -2))
+        attn_weights = attn_weights / math.sqrt(self.head_dim)
+        if attention_mask is not None:
+            attn_weights = attn_weights + attention_mask
+        attn_weights = nn.Softmax(dim=-1)(attn_weights)
+        attn_weights = self.attention_dropout(attn_weights)
+        if head_mask is not None:
+            attn_weights = attn_weights * head_mask
+        attn_output = torch.matmul(attn_weights, value)
+        return attn_output, attn_weights
+    def split_heads(self, tensor, num_heads, attn_head_size):
+        """
+        Splits hidden_size dim into attn_head_size and num_heads
+        """
+        new_shape = tensor.size()[:-1] + (num_heads, attn_head_size)
+        tensor = tensor.view(*new_shape)
+        return tensor.permute(0, 2, 1, 3)  # (batch, head, seq_length, head_features)
+    def merge_heads(self, tensor, num_heads, attn_head_size):
+        """
+        Merges attn_head_size dim and num_attn_heads dim into hidden_size
+        """
+        tensor = tensor.permute(0, 2, 1, 3).contiguous()
+        new_shape = tensor.size()[:-2] + (num_heads * attn_head_size,)
+        return tensor.view(new_shape)
+    def forward(
+            self,
+            hidden_states,
+            attention_mask=None,
+            head_mask=None,
+            output_attentions=False,
+    ):
+        query, key, value = self.c_attn(hidden_states).split(self.hidden_size, dim=2)
+        query = self.split_heads(query, self.num_heads, self.head_dim)
+        key = self.split_heads(key, self.num_heads, self.head_dim)
+        value = self.split_heads(value, self.num_heads, self.head_dim)
+        attn_output, attn_weights = self.attn(query, key, value, attention_mask, head_mask)
+        attn_output = self.merge_heads(attn_output, self.num_heads, self.head_dim)
+        attn_output = self.c_proj(attn_output)
+        attn_output = self.residual_dropout(attn_output)
+        outputs = (attn_output, attn_weights) if output_attentions else (attn_output,)
+        return outputs  # a, present, (attentions)
+class CodeSageMLP(nn.Module):
+    def __init__(self, intermediate_size, config):
+        super().__init__()
+        self.c_fc = Conv1D(intermediate_size, config.hidden_size)
+        self.act = ACT2FN[config.activation_function]
+        self.c_proj = Conv1D(config.hidden_size, intermediate_size)
+        self.dropout = nn.Dropout(config.residual_dropout_prob)
+    def forward(self, hidden_states):
+        hidden_states = self.c_fc(hidden_states)
+        hidden_states = self.act(hidden_states)
+        hidden_states = self.c_proj(hidden_states)
+        hidden_states = self.dropout(hidden_states)
+        return hidden_states
+class CodeSageBlock(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        hidden_size = config.hidden_size
+        inner_dim = config.intermediate_size if config.intermediate_size is not None else 4 * hidden_size
+        self.ln_1 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.attn = CodeSageAttention(config)
+        self.ln_2 = nn.LayerNorm(hidden_size, eps=config.layer_norm_epsilon)
+        self.mlp = CodeSageMLP(inner_dim, config)
+    def forward(
             self,
+            hidden_states,
+            attention_mask=None,
+            head_mask=None,
+            output_attentions=False,
     ):
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        attn_outputs = self.attn(
+            hidden_states,
+            attention_mask=attention_mask,
+            head_mask=head_mask,
+            output_attentions=output_attentions
+        )
+        attn_output = attn_outputs[0]  # output_attn: a, present, (attentions)
+        outputs = attn_outputs[1:]
+        hidden_states = attn_output + residual
+        residual = hidden_states
+        hidden_states = self.ln_2(hidden_states)
+        feed_forward_hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + feed_forward_hidden_states
+        outputs = (hidden_states,) + outputs[1:]
+        return outputs  # hidden_states, present, (attentions)
+class CodeSagePreTrainedModel(PreTrainedModel):
+    config_class = CodeSageConfig
+    def _init_weights(self, module):
+        """Initialize the weights."""
+        if isinstance(module, (nn.Linear, Conv1D)):
+            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=self.config.initializer_range)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+        elif isinstance(module, nn.LayerNorm):
+            module.bias.data.zero_()
+            module.weight.data.fill_(1.0)
+class CodeSageModel(CodeSagePreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.wte = nn.Embedding(config.vocab_size, config.hidden_size)
+        self.wpe = nn.Embedding(config.max_position_embeddings, config.hidden_size)
+        self.drop = nn.Dropout(config.embedding_dropout_prob)
+        self.h = nn.ModuleList([CodeSageBlock(config) for _ in range(config.num_hidden_layers)])
+        self.ln_f = nn.LayerNorm(config.hidden_size, eps=config.layer_norm_epsilon)
+        self.init_weights()
+    def get_input_embeddings(self):
+        return self.wte
+    def set_input_embeddings(self, new_embeddings: torch.Tensor):
+        self.wte = new_embeddings
+    def forward(
+            self,
+            input_ids=None,
+            attention_mask=None,
+            position_ids=None,
+            head_mask=None,
+            inputs_embeds=None,
+            output_attentions=None,
+            output_hidden_states=None,
+            return_dict=None
+    ):
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        if input_ids is not None:
+            input_shape = input_ids.size()
+        elif inputs_embeds is not None:
+            input_shape = inputs_embeds.size()[:-1]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+        device = input_ids.device if input_ids is not None else inputs_embeds.device
+        if position_ids is None:
+            position_ids = torch.arange(input_shape[-1], dtype=torch.long, device=device)
+            position_ids = position_ids.unsqueeze(0).view(-1, input_shape[-1])
+        else:
+            position_ids = position_ids.view(-1, input_shape[-1])
+        extended_attention_mask = None
+        if attention_mask is not None:
+            assert attention_mask.dim() == 2
+            extended_attention_mask = attention_mask[:, None, None, :]
+            extended_attention_mask = extended_attention_mask.to(dtype=self.dtype)  # fp16 compatibility
+            extended_attention_mask = (1.0 - extended_attention_mask) * -10000.0
+        head_mask = self.get_head_mask(head_mask, self.config.num_hidden_layers)
+        if inputs_embeds is None:
+            inputs_embeds = self.wte(input_ids)
+        position_embeds = self.wpe(position_ids)
+        hidden_states = inputs_embeds + position_embeds
+        hidden_states = self.drop(hidden_states)
+        output_shape = input_shape + (hidden_states.size(-1),)
+        all_self_attentions = () if output_attentions else None
+        all_hidden_states = () if output_hidden_states else None
+        for i, block in enumerate(self.h):
+            if output_hidden_states:
+                all_hidden_states = all_hidden_states + (hidden_states,)
+            outputs = block(
+                hidden_states,
+                attention_mask=extended_attention_mask,
+                head_mask=head_mask[i],
+                output_attentions=output_attentions,
+            )
+            hidden_states = outputs[0]
+            if output_attentions:
+                all_self_attentions = all_self_attentions + (outputs[1],)
+        hidden_states = self.ln_f(hidden_states)
+        hidden_states = hidden_states.view(*output_shape)
+        if output_hidden_states:
+            all_hidden_states = all_hidden_states + (hidden_states,)
+        pooled_output = None  # max-pooled output
+        if attention_mask is not None:
+            pooled_output = (hidden_states * attention_mask[:, :, None]).sum(1) / attention_mask.sum(1)[:, None]
+        if not return_dict:
+            return tuple(
+                v
+                for v in [hidden_states, pooled_output, all_hidden_states, all_self_attentions]
+                if v is not None
+            )
+        return BaseModelOutputWithPooling(
+            last_hidden_state=hidden_states,
+            pooler_output=pooled_output,
+            hidden_states=all_hidden_states,
+            attentions=all_self_attentions
+        )
+class CodeSageForSequenceClassification(CodeSagePreTrainedModel):
+    def __init__(self, config):
+        super().__init__(config)
+        self.num_labels = config.num_labels
+        self.config = config
+        self.encoder = CodeSageModel(config)
+        classifier_dropout = (
+            config.classifier_dropout if config.classifier_dropout is not None else config.residual_dropout_prob
+        )
+        self.dropout = nn.Dropout(classifier_dropout)
+        self.classifier = nn.Linear(config.hidden_size, config.num_labels)
+        # Initialize weights and apply final processing
+        self.post_init()
+    def forward(
+            self,
+            input_ids=None,
+            attention_mask=None,
+            position_ids=None,
+            head_mask=None,
+            inputs_embeds=None,
+            labels=None,
+            output_attentions=None,
+            output_hidden_states=None,
+            return_dict=None,
+    ):
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        assert attention_mask is not None, "attention_mask is needed to perform max-pooling"
+        outputs = self.encoder(
+            input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        pooled_output = outputs[1]
+        pooled_output = self.dropout(pooled_output)
+        logits = self.classifier(pooled_output)
+        loss = None
+        if labels is not None:
+            if self.config.problem_type is None:
+                if self.num_labels == 1:
+                    self.config.problem_type = "regression"
+                elif self.num_labels > 1 and (labels.dtype == torch.long or labels.dtype == torch.int):
+                    self.config.problem_type = "single_label_classification"
+                else:
+                    self.config.problem_type = "multi_label_classification"
+            if self.config.problem_type == "regression":
+                loss_fct = MSELoss()
+                if self.num_labels == 1:
+                    loss = loss_fct(logits.squeeze(), labels.squeeze())
+                else:
+                    loss = loss_fct(logits, labels)
+            elif self.config.problem_type == "single_label_classification":
+                loss_fct = CrossEntropyLoss()
+                loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
+            elif self.config.problem_type == "multi_label_classification":
+                loss_fct = BCEWithLogitsLoss()
+                loss = loss_fct(logits, labels)
+        if not return_dict:
+            output = (logits,) + outputs[2:]
+            return ((loss,) + output) if loss is not None else output
+        return SequenceClassifierOutput(
+            loss=loss,
+            logits=logits,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+        )