guillermoruiz
/

bilma

@@ -1,4 +1,4 @@
-from transformers import TFPreTrainedModel
 from tensorflow.keras.models import Model, load_model, Sequential
 from tensorflow.keras.layers import Layer, Dense, concatenate, Input, add, Dropout, LayerNormalization, MultiHeadAttention, Embedding
 import tensorflow as tf
@@ -9,7 +9,7 @@ from typing import Dict
 import re
 import unicodedata
-from .configuration_bilma import BilmaConfig
 # copied from preprocessing.py
 BLANK = ' '
@@ -32,7 +32,7 @@ SYMBOLS = set(";:,.@\\-\"/" + SYMBOLS_)
 class TFBilma(TFPreTrainedModel):
     config_class = BilmaConfig
-    main_input_name = "capt_input"
     #base_model_prefix = "bilma"
     def __init__(self, config):
@@ -67,7 +67,7 @@ class TFBilma(TFPreTrainedModel):
     @property
     def input_signature(self) -> Dict[str, tf.TensorSpec]:
         sig = {}
-        sig["capt_input"] = tf.TensorSpec([None, self.seq_max_length], tf.int32, name="capt_input")
         return sig
@@ -364,7 +364,7 @@ def preprocess(text):
 # Copied from wordpiece_tokenizer_ex.py
 # -------------------------------------
-class Tokenizer():
     def __init__(self, vocab_file, unk_token="[UNK]", end_token="[END]", mask_token="[MASK]"):
         self.word2idx = {}
         self.idx2word = []
@@ -484,7 +484,7 @@ def accuracy_function(ignore_id=0):
     return acc_mlm
 def bilma(num_enc=6, embed_dim=300, max_length=50, num_heads=6, ff_dim=512, vocab_size=9739, rate=0.1):
-    capt_inputs_ids = Input(shape=(max_length, ), name='capt_input')
     capt_embedding = Embedding(vocab_size, embed_dim, mask_zero=False, name="bilma/embedding")
     capt_inputs = capt_embedding(capt_inputs_ids)
@@ -503,10 +503,10 @@ def load(model_file):
                    }
     return load_model(model_file, custom_objects=custom_objects)
-class tokenizer():
     def __init__(self, vocab_file, max_length):
-        self.tokenizer = Tokenizer(vocab_file)
-        self.emo_labels = "❤👌👏💔😄😊😌😍😒😘😡😢😭🤔🥺"
         self.max_length = max_length
         self.START = 2
         self.END = 3

+from transformers import TFPreTrainedModel, PreTrainedTokenizer
 from tensorflow.keras.models import Model, load_model, Sequential
 from tensorflow.keras.layers import Layer, Dense, concatenate, Input, add, Dropout, LayerNormalization, MultiHeadAttention, Embedding
 import tensorflow as tf
 import re
 import unicodedata
+from configuration_bilma import BilmaConfig
 # copied from preprocessing.py
 BLANK = ' '
 class TFBilma(TFPreTrainedModel):
     config_class = BilmaConfig
+    main_input_name = "input_ids"
     #base_model_prefix = "bilma"
     def __init__(self, config):
     @property
     def input_signature(self) -> Dict[str, tf.TensorSpec]:
         sig = {}
+        sig["input_ids"] = tf.TensorSpec([None, self.seq_max_length], tf.int32, name="input_ids")
         return sig
 # Copied from wordpiece_tokenizer_ex.py
 # -------------------------------------
+class BaseTokenizer():
     def __init__(self, vocab_file, unk_token="[UNK]", end_token="[END]", mask_token="[MASK]"):
         self.word2idx = {}
         self.idx2word = []
     return acc_mlm
 def bilma(num_enc=6, embed_dim=300, max_length=50, num_heads=6, ff_dim=512, vocab_size=9739, rate=0.1):
+    capt_inputs_ids = Input(shape=(max_length, ), name='input_ids')
     capt_embedding = Embedding(vocab_size, embed_dim, mask_zero=False, name="bilma/embedding")
     capt_inputs = capt_embedding(capt_inputs_ids)
                    }
     return load_model(model_file, custom_objects=custom_objects)
+class BilmaTokenizer():
     def __init__(self, vocab_file, max_length):
+        self.tokenizer = BaseTokenizer(vocab_file)
+        #self.emo_labels = "❤👌👏💔😄😊😌😍😒😘😡😢😭🤔🥺"
         self.max_length = max_length
         self.START = 2
         self.END = 3

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b66af189fde956eb4a944a6473178c837e1e3616230fc6049a11ed1c1b38379
 size 156564220

 version https://git-lfs.github.com/spec/v1
+oid sha256:28582d643f857938d54653b1eb5481a6f4a8d68d0909b1af58371c55806e9048
 size 156564220