OpenLab-NLP
/

model-prototype

Model card Files Files and versions

Yuchan commited on Nov 24

Commit

6866f20

·

verified ·

1 Parent(s): 696479e

Update AlphaS2S.py

Files changed (1) hide show

AlphaS2S.py +2 -4

AlphaS2S.py CHANGED Viewed

@@ -230,7 +230,7 @@ class DecoderBlock(layers.Layer):
         return self.norm3(out2 + ffn_out)
 class Transformer(tf.keras.Model):
-    def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size, max_len=100, dropout=0.1):
         super().__init__()
         self.max_len = max_len
         self.d_model = d_model
@@ -253,7 +253,6 @@ class Transformer(tf.keras.Model):
         for layer in self.dec_layers: y = layer(y, enc_out, training=training)
         return self.final_layer(y)
 # 5) 학습 설정 및 실행
 # =======================
@@ -284,8 +283,7 @@ def create_lr_schedule(initial_lr=5e-5, decay_steps=10000, decay_rate=0.9):
 with strategy.scope():
     # ⚠️ 수정: chat_vocab_size 대신 정의된 vocab_size 사용
-    chat_model = Transformer(num_layers=4, d_model=160, num_heads=8,
-                             input_vocab_size=vocab_size, target_vocab_size=vocab_size, max_len=max_len)
     dummy_input = {
         "enc_inputs": tf.zeros((1, max_len), dtype=tf.int32),

         return self.norm3(out2 + ffn_out)
 class Transformer(tf.keras.Model):
+    def __init__(self, num_layers, d_model, num_heads, dff, input_vocab_size, target_vocab_size, max_len=256, dropout=0.1):
         super().__init__()
         self.max_len = max_len
         self.d_model = d_model
         for layer in self.dec_layers: y = layer(y, enc_out, training=training)
         return self.final_layer(y)
 # 5) 학습 설정 및 실행
 # =======================
 with strategy.scope():
     # ⚠️ 수정: chat_vocab_size 대신 정의된 vocab_size 사용
+    chat_model = Transformer(num_layers=4, d_model=512, num_heads=8, dff=2048, input_vocab_size=vocab_size, target_vocab_size=vocab_size, max_len=256, dropout=0.1)
     dummy_input = {
         "enc_inputs": tf.zeros((1, max_len), dtype=tf.int32),