neural-mesh / test /test_ttrlvr_azr_integration.py

Upload TestTime-RLVR-v2 from Full-pipeline-relative_0827 branch

f50dc54 verified 25 days ago

18.7 kB

	#!/usr/bin/env python3
	"""
	TTRLVR + AZR 통합 시스템 테스트 스크립트

	주요 컴포넌트들의 단위 테스트 및 통합 테스트를 수행합니다:
	1. Task Generator 테스트 (AZR 메타데이터 포함)
	2. Complete Pipeline 테스트 (basic_accuracy 업데이트)
	3. Data Converter 테스트 (parquet 저장)
	4. Iterative Trainer 테스트 (라운드 관리)
	5. 전체 통합 테스트
	"""

	import os
	import sys
	import json
	import tempfile
	import shutil
	import unittest
	from unittest.mock import Mock, patch, MagicMock
	from pathlib import Path

	# 경로 설정
	sys.path.append('/home/ubuntu/RLVR/TestTime-RLVR-v2')

	# TTRLVR 모듈 임포트
	from absolute_zero_reasoner.testtime.config import TestTimeConfig, BenchmarkConfig
	from absolute_zero_reasoner.testtime.logger import TestTimeLogger
	from absolute_zero_reasoner.testtime.task_generator import TestTimeTaskGenerator
	from absolute_zero_reasoner.testtime.complete_pipeline import CompleteTestTimePipeline
	from test.utils.iterative_trainer import IterativeTrainer


	class TestTTRLVRAZRIntegration(unittest.TestCase):
	"""TTRLVR + AZR 통합 시스템 테스트"""

	def setUp(self):
	"""테스트 설정"""
	self.config = TestTimeConfig()
	self.config.model_name = "Qwen/Qwen2.5-7B"
	self.config.max_new_tokens = 256
	self.config.temperature = 0.05

	self.logger = TestTimeLogger()
	self.test_dir = tempfile.mkdtemp()

	# 테스트용 IPO 트리플 데이터
	self.test_ipo_triples = [
	{
	'id': 'HumanEval_0_triple_0',
	'input': '[1, 2, 3]',
	'actual_output': '[2, 4, 6]',
	'program': 'def test_func(lst):\n return [x * 2 for x in lst]',
	'full_input_str': 'test_func([1, 2, 3])',
	'source_program_id': 'program_0',
	'ipo_index': 0
	},
	{
	'id': 'HumanEval_0_triple_1',
	'input': '[4, 5]',
	'actual_output': '[8, 10]',
	'program': 'def test_func(lst):\n return [x * 2 for x in lst]',
	'full_input_str': 'test_func([4, 5])',
	'source_program_id': 'program_0',
	'ipo_index': 1
	}
	]

	def tearDown(self):
	"""테스트 정리"""
	if os.path.exists(self.test_dir):
	shutil.rmtree(self.test_dir)

	def test_task_generator_azr_metadata(self):
	"""Task Generator의 AZR 메타데이터 생성 테스트"""

	task_generator = TestTimeTaskGenerator(self.config, self.logger)

	# Task 생성 (round_num 포함)
	problem_id = "HumanEval_0"
	round_num = 3
	tasks = task_generator.generate_tasks(self.test_ipo_triples, problem_id, round_num)

	# 기본 구조 검증
	self.assertIn('induction', tasks)
	self.assertIn('deduction', tasks)
	self.assertIn('abduction', tasks)

	# 각 task 타입별 검증
	for task_type, task_list in tasks.items():
	self.assertGreater(len(task_list), 0, f"{task_type} tasks should be generated")

	for task in task_list:
	# AZR 메타데이터 검증
	self.assertIn('uid', task)
	self.assertIn('ipo_group_id', task)
	self.assertIn('original_problem_id', task)
	self.assertIn('round', task)
	self.assertIn('extra_info', task)
	self.assertIn('basic_accuracy', task)
	self.assertIn('ground_truth', task)

	# 값 검증
	self.assertEqual(task['original_problem_id'], problem_id)
	self.assertEqual(task['round'], round_num)
	self.assertEqual(task['basic_accuracy'], 0.0) # 초기값
	self.assertIn(problem_id, task['uid'])
	self.assertIn(str(round_num), task['uid'])
	self.assertIn(task_type, task['uid'])

	# task 타입별 metric 검증
	if task_type == 'induction':
	self.assertEqual(task['extra_info']['metric'], 'code_f')
	elif task_type == 'deduction':
	self.assertEqual(task['extra_info']['metric'], 'code_o')
	elif task_type == 'abduction':
	self.assertEqual(task['extra_info']['metric'], 'code_i')

	print("✅ Task Generator AZR metadata test passed")

	def test_data_converter_parquet_format(self):
	"""데이터 변환기의 parquet 형식 테스트"""

	# Mock task 데이터 생성
	mock_tasks = {
	'induction': [
	{
	'task_id': 'induction_0',
	'task_type': 'induction',
	'prompt': 'Test prompt',
	'uid': 'HumanEval_0_round_1_induction_0',
	'ipo_group_id': 'HumanEval_0_program_0_ipo_0',
	'source_program_id': 'program_0',
	'ipo_index': 0,
	'ipo_triple': {
	'input': '[1, 2, 3]',
	'output': '[2, 4, 6]',
	'program': 'def test_func(lst):\n return [x * 2 for x in lst]'
	},
	'ground_truth': 'def test_func(lst):\n return [x * 2 for x in lst]',
	'extra_info': {'metric': 'code_f'},
	'basic_accuracy': 1.0,
	'original_problem_id': 'HumanEval_0',
	'round': 1
	}
	]
	}

	# Complete pipeline mock 생성
	with patch('absolute_zero_reasoner.testtime.complete_pipeline.CompleteTestTimePipeline') as mock_pipeline:
	pipeline = CompleteTestTimePipeline(self.config, self.logger)

	# _save_azr_training_data 메서드 테스트
	output_dir = self.test_dir
	problem_id = "HumanEval_0"
	round_num = 1

	saved_files = pipeline._save_azr_training_data(mock_tasks, problem_id, round_num, output_dir)

	# 파일 생성 검증
	self.assertIn('induction', saved_files)
	self.assertTrue(os.path.exists(saved_files['induction']))

	# Parquet 파일 읽기 테스트
	import pandas as pd
	df = pd.read_parquet(saved_files['induction'])

	# 데이터 검증
	self.assertEqual(len(df), 1)
	self.assertIn('prompt', df.columns)
	self.assertIn('uid', df.columns)
	self.assertIn('ipo_group_id', df.columns)
	self.assertIn('ground_truth', df.columns)
	self.assertIn('basic_accuracy', df.columns)

	# 프롬프트 형식 검증 (chat 형식)
	prompt_data = df.iloc[0]['prompt']
	self.assertIsInstance(prompt_data, list)
	self.assertEqual(prompt_data[0]['role'], 'user')
	self.assertIn('content', prompt_data[0])

	print("✅ Data converter parquet format test passed")

	def test_complete_pipeline_basic_accuracy_update(self):
	"""Complete Pipeline의 basic_accuracy 업데이트 테스트"""

	# Mock components
	with patch.multiple(
	'absolute_zero_reasoner.testtime.complete_pipeline.CompleteTestTimePipeline',
	_generate_task_response=Mock(return_value="test response"),
	_extract_answer_by_task_type=Mock(return_value="test answer"),
	_calculate_task_accuracy=Mock(return_value=0.8)
	):
	pipeline = CompleteTestTimePipeline(self.config, self.logger)

	# Mock task 데이터
	mock_tasks = {
	'induction': [
	{
	'task_id': 'induction_0',
	'prompt': 'test prompt',
	'expected_solution': 'test solution',
	'evaluation_data': {'test': 'data'},
	'basic_accuracy': 0.0 # 초기값
	}
	]
	}

	# Task 평가 실행
	evaluations = pipeline._evaluate_tasks_with_llm(mock_tasks)

	# basic_accuracy 업데이트 검증
	updated_task = mock_tasks['induction'][0]
	self.assertEqual(updated_task['basic_accuracy'], 0.8) # Mock에서 반환한 값

	# Evaluation 결과 검증
	self.assertIn('induction', evaluations)
	eval_result = evaluations['induction'][0]
	self.assertIn('basic_accuracy', eval_result)
	self.assertEqual(eval_result['basic_accuracy'], 0.8)

	print("✅ Complete pipeline basic_accuracy update test passed")

	def test_iterative_trainer_round_management(self):
	"""Iterative Trainer의 라운드 관리 테스트"""

	# Mock benchmark config
	benchmark_config = BenchmarkConfig(
	name='test_benchmark',
	problems_path='/test/path',
	max_problems=None
	)

	problem_ids = ['TestProblem_1', 'TestProblem_2']

	with patch.object(IterativeTrainer, '_update_pipeline_model'):
	with patch.object(IterativeTrainer, '_train_azr_with_round_data') as mock_train:
	with patch.object(IterativeTrainer, '_save_checkpoint'):
	with patch('absolute_zero_reasoner.testtime.complete_pipeline.CompleteTestTimePipeline') as mock_pipeline_class:

	# Mock pipeline 결과
	mock_pipeline = Mock()
	mock_pipeline.run_complete_pipeline.return_value = {
	'success': True,
	'azr_training_data': {'induction': '/test/path/induction.parquet'},
	'steps': {
	'azr_data_saving': {'total_tasks': 10}
	}
	}
	mock_pipeline_class.return_value = mock_pipeline

	# Mock AZR 학습 결과
	mock_train.return_value = "/data/RLVR/checkpoints/ttrlvr_azr/round_1"

	# Trainer 초기화
	trainer = IterativeTrainer(self.config, self.logger)
	trainer.checkpoint_dir = self.test_dir

	# 단일 라운드 테스트 (전체 30라운드는 너무 오래 걸림)
	round_result = trainer._run_single_round(benchmark_config, problem_ids, 1)

	# 결과 검증
	self.assertTrue(round_result['success'])
	self.assertEqual(len(round_result['problems']), 2)
	self.assertGreater(len(round_result['training_data_files']), 0)

	# 통계 검증
	stats = round_result['stats']
	self.assertEqual(stats['total_problems'], 2)
	self.assertEqual(stats['successful_problems'], 2)
	self.assertEqual(stats['failed_problems'], 0)

	print("✅ Iterative trainer round management test passed")

	def test_data_combination_and_sorting(self):
	"""라운드 데이터 통합 및 정렬 테스트"""

	trainer = IterativeTrainer(self.config, self.logger)

	# Mock training data files
	training_data_files = [
	{
	'problem_id': 'TestProblem_1',
	'files': {
	'induction': os.path.join(self.test_dir, 'test_induction_1.parquet')
	}
	},
	{
	'problem_id': 'TestProblem_2',
	'files': {
	'induction': os.path.join(self.test_dir, 'test_induction_2.parquet')
	}
	}
	]

	# Mock parquet 파일 생성
	import pandas as pd

	# 첫 번째 문제 데이터
	data1 = pd.DataFrame([
	{
	'uid': 'TestProblem_1_round_1_induction_0',
	'ipo_group_id': 'TestProblem_1_program_1_ipo_2',
	'basic_accuracy': 0.8
	}
	])
	data1.to_parquet(training_data_files[0]['files']['induction'], index=False)

	# 두 번째 문제 데이터
	data2 = pd.DataFrame([
	{
	'uid': 'TestProblem_2_round_1_induction_0',
	'ipo_group_id': 'TestProblem_2_program_0_ipo_1',
	'basic_accuracy': 0.6
	}
	])
	data2.to_parquet(training_data_files[1]['files']['induction'], index=False)

	# 데이터 통합 테스트
	combined_path = trainer._combine_round_data(training_data_files, 1)

	self.assertIsNotNone(combined_path)
	self.assertTrue(os.path.exists(combined_path))

	# 통합된 파일 검증
	combined_file = os.path.join(combined_path, 'induction.parquet')
	self.assertTrue(os.path.exists(combined_file))

	# 데이터 정렬 검증 (ipo_group_id로 정렬되어야 함)
	combined_df = pd.read_parquet(combined_file)
	self.assertEqual(len(combined_df), 2)

	# ipo_group_id 정렬 검증
	ipo_groups = combined_df['ipo_group_id'].tolist()
	self.assertEqual(ipo_groups, sorted(ipo_groups))

	print("✅ Data combination and sorting test passed")


	class TestPerformanceAndMemory(unittest.TestCase):
	"""성능 및 메모리 테스트"""

	def setUp(self):
	self.config = TestTimeConfig()
	self.logger = TestTimeLogger()

	def test_memory_cleanup_between_rounds(self):
	"""라운드 간 메모리 정리 테스트"""

	with patch('absolute_zero_reasoner.testtime.complete_pipeline.CompleteTestTimePipeline') as mock_pipeline_class:
	mock_pipeline = Mock()
	mock_pipeline.model = Mock()
	mock_pipeline.tokenizer = Mock()
	mock_pipeline_class.return_value = mock_pipeline

	trainer = IterativeTrainer(self.config, self.logger)

	# 모델 업데이트 테스트 (메모리 정리 포함)
	trainer._update_pipeline_model("/new/model/path")

	# 모델과 토크나이저가 None으로 설정되었는지 확인
	self.assertIsNone(trainer.complete_pipeline.model)
	self.assertIsNone(trainer.complete_pipeline.tokenizer)

	print("✅ Memory cleanup between rounds test passed")

	def test_checkpoint_size_and_structure(self):
	"""체크포인트 크기 및 구조 테스트"""

	trainer = IterativeTrainer(self.config, self.logger)
	test_dir = tempfile.mkdtemp()
	trainer.checkpoint_dir = test_dir

	try:
	# Mock training results
	training_results = {
	'total_rounds': 30,
	'rounds': {
	1: {'success': True, 'stats': {'total_tasks': 100}},
	2: {'success': True, 'stats': {'total_tasks': 95}},
	3: {'success': False, 'error': 'Test error'}
	}
	}

	# 체크포인트 저장
	trainer._save_checkpoint(3, "/test/model/path", training_results)

	# 체크포인트 파일 존재 확인
	checkpoint_path = os.path.join(test_dir, "checkpoint_round_3")
	self.assertTrue(os.path.exists(checkpoint_path))

	checkpoint_file = os.path.join(checkpoint_path, "checkpoint.json")
	summary_file = os.path.join(checkpoint_path, "summary.txt")

	self.assertTrue(os.path.exists(checkpoint_file))
	self.assertTrue(os.path.exists(summary_file))

	# 체크포인트 내용 검증
	with open(checkpoint_file, 'r') as f:
	checkpoint_data = json.load(f)

	self.assertEqual(checkpoint_data['round_num'], 3)
	self.assertEqual(checkpoint_data['model_path'], "/test/model/path")
	self.assertIn('training_results', checkpoint_data)

	# 파일 크기 확인 (너무 크지 않은지)
	checkpoint_size = os.path.getsize(checkpoint_file)
	self.assertLess(checkpoint_size, 1024 * 1024) # 1MB 미만

	finally:
	shutil.rmtree(test_dir)

	print("✅ Checkpoint size and structure test passed")


	def run_integration_test():
	"""통합 테스트 실행"""

	print("🧪 TTRLVR + AZR 통합 시스템 테스트 시작")
	print("=" * 60)

	# 테스트 스위트 생성
	loader = unittest.TestLoader()
	suite = unittest.TestSuite()

	# 테스트 클래스 추가
	suite.addTests(loader.loadTestsFromTestCase(TestTTRLVRAZRIntegration))
	suite.addTests(loader.loadTestsFromTestCase(TestPerformanceAndMemory))

	# 테스트 실행
	runner = unittest.TextTestRunner(verbosity=2)
	result = runner.run(suite)

	# 결과 요약
	print("\n" + "=" * 60)
	print("📊 테스트 결과 요약:")
	print(f" - 실행된 테스트: {result.testsRun}")
	print(f" - 성공: {result.testsRun - len(result.failures) - len(result.errors)}")
	print(f" - 실패: {len(result.failures)}")
	print(f" - 오류: {len(result.errors)}")

	if result.failures:
	print("\n❌ 실패한 테스트:")
	for test, traceback in result.failures:
	print(f" - {test}: {traceback}")

	if result.errors:
	print("\n💥 오류 발생 테스트:")
	for test, traceback in result.errors:
	print(f" - {test}: {traceback}")

	success = len(result.failures) == 0 and len(result.errors) == 0

	if success:
	print("\n🎉 모든 테스트 성공!")
	else:
	print("\n⚠️ 일부 테스트 실패 또는 오류 발생")

	return success


	if __name__ == '__main__':
	success = run_integration_test()
	sys.exit(0 if success else 1)