import tensorflow as tf
from tensorflow import keras
import numpy as np
from keras import layers

# 가장 빈도가 높은 1만개 단어만 사용하여 데이터셋 로드
(x_train, y_train), (x_test, y_test) = keras.datasets.imdb.load_data(num_words=10000)

print(f"패딩 전 첫 번째 리뷰 길이: {len(x_train[0])}")

# 모든 시퀀스의 길이를 256으로 통일
# maxlen보다 길면 잘라내고, 짧으면 앞부분을 0으로 채움 (pre-padding)
x_train = keras.preprocessing.sequence.pad_sequences(x_train, maxlen=256)
x_test = keras.preprocessing.sequence.pad_sequences(x_test, maxlen=256)

print(f"패딩 후 첫 번째 리뷰 길이: {len(x_train[0])}")

# 모델 아키텍처 정의
model = keras.Sequential([
    # 1. 단어 임베딩 층
    # input_dim: 전체 단어 집합의 크기 (가장 빈번한 1만개 단어)
    # output_dim: 각 단어를 표현할 벡터의 차원 (32차원)
    keras.layers.Embedding(input_dim=10000, output_dim=32),
    
    # 2. RNN 층
    # units: 은닉 상태 벡터의 차원 (32차원)
    keras.layers.SimpleRNN(32),
    
    # 3. 최종 분류기(Classifier)
    # units: 출력 뉴런의 수 (긍정/부정 1개)
    # activation: 출력 값을 0~1 사이 확률로 변환 (이진 분류)
    keras.layers.Dense(1, activation="sigmoid"),
])


model.compile(
    # 손실 함수: 예측이 정답과 얼마나 다른지 측정.
    # 이진 분류(0 또는 1) 문제이므로 binary_crossentropy가 가장 적합.
    loss="binary_crossentropy",
    
    # 옵티마이저: 손실을 최소화하기 위해 모델의 가중치를 업데이트하는 알고리즘.
    # Adam은 현재 가장 널리 쓰이고 성능이 좋은 옵티마이저 중 하나.
    optimizer="adam",
    
    # 평가지표: 훈련 과정을 모니터링할 지표. 정확도를 사용.
    metrics=["accuracy"]
)

batch_size = 128
epochs = 10

# 모델 학습 실행
# validation_data를 지정하여 매 에포크마다 테스트 데이터로 성능을 검증
history = model.fit(
    x_train, y_train,
    batch_size=batch_size,
    epochs=epochs,
    validation_data=(x_test, y_test)
)

# 학습 완료 후 최종 성능 평가
score = model.evaluate(x_test, y_test, verbose=0)
print(f"\nTest loss: {score[0]:.4f}")
print(f"Test accuracy: {score[1]:.4f}")

# 모델의 구조, 가중치, 학습 설정을 모두 '.keras' 파일 하나에 저장
model.save("my_rnn_model_imdb.keras")

# 모델 구조 요약 출력
model.summary()

# 저장된 모델 불러오기
loaded_model = keras.models.load_model("my_rnn_model_imdb.keras")