Spaces:

abhishekrs4
/

Handwriting_Recognition

Running

File size: 6,596 Bytes

import torchvision
import torch.nn as nn
import torch.nn.functional as F

from model_visual_features import ResNetFeatureExtractor, TPS_SpatialTransformerNetwork


class HW_RNN_Seq2Seq(nn.Module):
    """

    Visual Seq2Seq model using BiLSTM

    """

    def __init__(

        self,

        num_classes,

        image_height,

        cnn_output_channels=512,

        num_feats_mapped_seq_hidden=128,

        num_feats_seq_hidden=256,

    ):
        """

        ---------

        Arguments

        ---------

        num_classes : int

            num of distinct characters (classes) in the dataset

        image_height : int

            image height

        cnn_output_channels : int

            number of channels output from the CNN visual feature extractor (default: 512)

        num_feats_mapped_seq_hidden : int

            number of features to be used in the mapped visual features as sequences (default: 128)

        num_feats_seq_hidden : int

            number of features to be used in the LSTM for sequence modeling (default: 256)

        """
        super().__init__()
        self.output_height = image_height // 32

        self.dropout = nn.Dropout(p=0.25)
        self.map_visual_to_seq = nn.Linear(
            cnn_output_channels * self.output_height, num_feats_mapped_seq_hidden
        )

        self.b_lstm_1 = nn.LSTM(
            num_feats_mapped_seq_hidden, num_feats_seq_hidden, bidirectional=True
        )
        self.b_lstm_2 = nn.LSTM(
            2 * num_feats_seq_hidden, num_feats_seq_hidden, bidirectional=True
        )

        self.final_dense = nn.Linear(2 * num_feats_seq_hidden, num_classes)

    def forward(self, visual_feats):
        visual_feats = visual_feats.permute(3, 0, 1, 2)
        # WBCH
        # the sequence is along the width of the image as a sentence

        visual_feats = visual_feats.contiguous().view(
            visual_feats.shape[0], visual_feats.shape[1], -1
        )
        # WBC

        seq = self.map_visual_to_seq(visual_feats)
        seq = self.dropout(seq)
        lstm_1, _ = self.b_lstm_1(seq)
        lstm_2, _ = self.b_lstm_2(lstm_1)
        lstm_2 = self.dropout(lstm_2)

        dense_output = self.final_dense(lstm_2)
        # [seq_len, B, num_classes]

        log_probs = F.log_softmax(dense_output, dim=2)

        return log_probs


class CRNN(nn.Module):
    """

    Hybrid CNN - RNN model

    CNN - Modified ResNet34 for visual features

    RNN - BiLSTM for seq2seq modeling

    """

    def __init__(

        self,

        num_classes,

        image_height,

        num_feats_mapped_seq_hidden=128,

        num_feats_seq_hidden=256,

        pretrained=False,

    ):
        """

        ---------

        Arguments

        ---------

        num_classes : int

            num of distinct characters (classes) in the dataset

        image_height : int

            image height

        num_feats_mapped_seq_hidden : int

            number of features to be used in the mapped visual features as sequences (default: 128)

        num_feats_seq_hidden : int

            number of features to be used in the LSTM for sequence modeling (default: 256)

        """
        super().__init__()
        self.visual_feature_extractor = ResNetFeatureExtractor(pretrained=pretrained)
        self.rnn_seq2seq_module = HW_RNN_Seq2Seq(
            num_classes,
            image_height,
            self.visual_feature_extractor.output_channels,
            num_feats_mapped_seq_hidden,
            num_feats_seq_hidden,
        )

    def forward(self, x):
        visual_feats = self.visual_feature_extractor(x)
        # [B, 512, H/32, W/32]

        log_probs = self.rnn_seq2seq_module(visual_feats)
        return log_probs


class STN_CRNN(nn.Module):
    """

    STN + CNN + RNN model

    STN - Spatial Transformer Network for learning variable handwriting

    CNN - Modified ResNet34 for visual features

    RNN - BiLSTM for seq2seq modeling

    """

    def __init__(

        self,

        num_classes,

        image_height,

        image_width,

        num_feats_mapped_seq_hidden=128,

        num_feats_seq_hidden=256,

        pretrained=False,

    ):
        """

        ---------

        Arguments

        ---------

        num_classes : int

            num of distinct characters (classes) in the dataset

        image_height : int

            image height

        image_width : int

            image width

        num_feats_mapped_seq_hidden : int

            number of features to be used in the mapped visual features as sequences (default: 128)

        num_feats_seq_hidden : int

            number of features to be used in the LSTM for sequence modeling (default: 256)

        """
        super().__init__()
        self.stn = TPS_SpatialTransformerNetwork(
            80,
            (image_height, image_width),
            (image_height, image_width),
            I_channel_num=3,
        )
        self.visual_feature_extractor = ResNetFeatureExtractor(pretrained=pretrained)
        self.rnn_seq2seq_module = HW_RNN_Seq2Seq(
            num_classes,
            image_height,
            self.visual_feature_extractor.output_channels,
            num_feats_mapped_seq_hidden,
            num_feats_seq_hidden,
        )

    def forward(self, x):
        stn_output = self.stn(x)
        visual_feats = self.visual_feature_extractor(stn_output)
        log_probs = self.rnn_seq2seq_module(visual_feats)
        return log_probs


"""

class STN_PP_CRNN(nn.Module):

    def __init__(self, num_classes, image_height, image_width, num_feats_mapped_seq_hidden=128, num_feats_seq_hidden=256):

        super().__init__()

        self.stn = TPS_SpatialTransformerNetwork(

            20,

            (image_height, image_width),

            (image_height, image_width),

            I_channel_num=3,

        )

        self.visual_feature_extractor = ResNetFeatureExtractor()

        self.pp_block = PyramidPoolBlock(num_channels=self.visual_feature_extractor.output_channels)

        self.rnn_seq2seq_module = HW_RNN_Seq2Seq(num_classes, image_height, self.visual_feature_extractor.output_channels, num_feats_mapped_seq_hidden, num_feats_seq_hidden)



    def forward(self, x):

        stn_output = self.stn(x)

        visual_feats = self.visual_feature_extractor(stn_output)

        pp_feats = self.pp_block(visual_feats)

        log_probs = self.rnn_seq2seq_module(pp_feats)

        return log_probs

"""