cycloevan
/

malconv

Text Classification

malware-detection

Model card Files Files and versions

malconv / src /tune_model.py

cycloevan's picture

Upload 17 files

b92918a verified 5 months ago

history blame contribute delete

4.74 kB

	import os
	import sys
	import itertools
	import numpy as np
	import tensorflow as tf
	from sklearn.model_selection import train_test_split

	sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))

	from src.model import MalConv
	from src.utils import preprocess_dataset

	def hyperparameter_search(csv_path,
	param_grid=None,
	max_length=2**20,
	epochs=5,
	validation_split=0.2):
	"""
	그리드 서치를 통한 하이퍼파라미터 최적화

	Args:
	csv_path: 훈련 데이터 CSV 경로
	param_grid: 하이퍼파라미터 그리드
	max_length: 최대 입력 길이
	epochs: 훈련 에포크 수
	validation_split: 검증 데이터 비율
	"""

	if param_grid is None:
	param_grid = {
	'embedding_size': [8, 16],
	'num_filters': [64, 128],
	'fc_size': [64, 128],
	'learning_rate': [0.001, 0.0001]
	}

	print("데이터 로딩 중...")
	X, y = preprocess_dataset(csv_path, max_length)
	X_train, X_val, y_train, y_val = train_test_split(
	X, y, test_size=validation_split, random_state=42, stratify=y
	)

	# 모든 하이퍼파라미터 조합 생성
	param_names = list(param_grid.keys())
	param_values = list(param_grid.values())
	param_combinations = list(itertools.product(*param_values))

	best_score = 0
	best_params = None
	results = []

	print(f"총 {len(param_combinations)}개의 조합을 테스트합니다.")

	for i, params in enumerate(param_combinations):
	param_dict = dict(zip(param_names, params))
	print(f"\n[{i+1}/{len(param_combinations)}] 테스트 중: {param_dict}")

	try:
	# 모델 생성
	model = MalConv(
	max_input_length=max_length,
	embedding_size=param_dict['embedding_size'],
	num_filters=param_dict['num_filters'],
	fc_size=param_dict['fc_size']
	)

	# 컴파일
	model.compile(
	optimizer=tf.keras.optimizers.Adam(
	learning_rate=param_dict['learning_rate']
	),
	loss='binary_crossentropy',
	metrics=['accuracy']
	)

	# 더미 입력으로 모델 빌드
	dummy_input = np.zeros((1, max_length), dtype=np.uint8)
	_ = model(dummy_input)

	# 훈련
	history = model.fit(
	X_train, y_train,
	batch_size=16,
	epochs=epochs,
	validation_data=(X_val, y_val),
	verbose=0
	)

	# 평가
	val_loss, val_acc = model.evaluate(X_val, y_val, verbose=0)

	result = {
	'params': param_dict,
	'val_accuracy': val_acc,
	'val_loss': val_loss
	}
	results.append(result)

	print(f"검증 정확도: {val_acc:.4f}")

	# 최고 성능 업데이트
	if val_acc > best_score:
	best_score = val_acc
	best_params = param_dict
	print(f"새로운 최고 성능! 정확도: {best_score:.4f}")

	except Exception as e:
	print(f"에러 발생: {e}")
	continue

	print("\n" + "="*50)
	print("하이퍼파라미터 튜닝 완료")
	print("="*50)
	print(f"최고 성능: {best_score:.4f}")
	print(f"최적 하이퍼파라미터: {best_params}")

	# 결과 정렬
	results.sort(key=lambda x: x['val_accuracy'], reverse=True)

	print("\n상위 5개 결과:")
	for i, result in enumerate(results[:5]):
	print(f"{i+1}. 정확도: {result['val_accuracy']:.4f}, "
	f"파라미터: {result['params']}")

	return best_params, results

	def main():
	csv_path = "Input/sample_data.csv" # 실제 데이터 경로로 변경

	# 커스텀 하이퍼파라미터 그리드
	param_grid = {
	'embedding_size': [8, 16],
	'num_filters': [64, 128],
	'fc_size': [64, 128],
	'learning_rate': [0.001, 0.0001]
	}

	best_params, results = hyperparameter_search(
	csv_path=csv_path,
	param_grid=param_grid,
	epochs=3 # 빠른 테스트를 위해 에포크 수 감소
	)

	print(f"\n최적 하이퍼파라미터로 모델을 다시 훈련하세요:")
	print(f"python src/train.py {csv_path} --epochs 10")

	if __name__ == "__main__":
	main()