Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

lily_fast_api / README_ADVANCED_CONTEXT.md

gbrabbit

Auto commit at 22-2025-08 14:45:59

7f8ebab 2 months ago

preview code

raw

history blame

7.53 kB

🚀 실무용 고급 컨텍스트 관리자 (Advanced Context Manager)

실제 ChatGPT, Gemini, Claude 등에서 사용하는 방식을 모방한 고급 메시지 요약 및 히스토리 압축 시스템입니다.

✨ 주요 기능

🔄 턴별 메시지 요약

각 턴마다 사용자-어시스턴트 메시지 쌍을 자동으로 요약
3가지 요약 방법 지원: simple, smart, extractive
주요 키워드 자동 추출 및 저장

🗜️ 히스토리 압축

일정 토큰 이상 쌓이면 기존 히스토리를 재요약
계층적 압축: 개별 메시지 → 턴 요약 → 세션 요약
토큰 제한 내에서 대화 흐름 유지

📊 실시간 토큰 관리

한국어/영어별 토큰 수 자동 추정
메모리 사용량 실시간 모니터링
자동 정리 및 압축 실행

🏗️ 시스템 구조

ConversationTurn (대화 턴)
├── role: 'user' | 'assistant'
├── content: 원본 메시지
├── summary: 요약된 메시지
└── tokens_estimated: 추정 토큰 수

TurnSummary (턴 요약)
├── turn_id: 고유 식별자
├── user_message: 사용자 메시지
├── assistant_message: 어시스턴트 메시지
├── summary: 턴 요약
├── key_topics: 주요 주제들
└── tokens_estimated: 총 토큰 수

SessionSummary (세션 요약)
├── session_id: 세션 식별자
├── summary: 전체 세션 요약
├── key_topics: 주요 주제들
└── total_turns: 총 턴 수

🚀 사용법

1. 기본 초기화

from lily_llm_core.context_manager import AdvancedContextManager

# 고급 컨텍스트 관리자 생성
context_manager = AdvancedContextManager(
    max_tokens=2000,           # 최대 토큰 수
    max_turns=20,              # 최대 턴 수
    enable_summarization=True,  # 요약 활성화
    summary_threshold=0.8,      # 80% 도달 시 요약 시작
    max_summary_tokens=500      # 요약당 최대 토큰 수
)

2. 메시지 추가 및 자동 요약

# 세션 ID 설정
session_id = "user_123"

# 사용자 메시지 추가 (자동 요약 생성)
user_msg = "파이썬에서 리스트와 튜플의 차이점이 궁금해요."
context_manager.add_user_message(user_msg, metadata={"session_id": session_id})

# 어시스턴트 응답 추가 (자동 요약 생성)
assistant_msg = "리스트는 가변(mutable)이고, 튜플은 불변(immutable)입니다..."
context_manager.add_assistant_message(assistant_msg, metadata={"session_id": session_id})

# 턴 요약이 자동으로 생성됩니다!

3. 요약 방법 설정

# 요약 방법 변경
context_manager.set_summary_method("smart")  # simple, smart, extractive

# 현재 요약 방법 확인
print(context_manager.current_summary_method)

4. 압축된 컨텍스트 사용

# 압축된 컨텍스트 가져오기 (요약 포함)
compressed_context = context_manager.get_compressed_context(session_id)

# 모델별 최적화된 컨텍스트
polyglot_context = context_manager.get_context_for_model("polyglot", session_id)
llama_context = context_manager.get_context_for_model("llama", session_id)

5. 상태 모니터링

# 컨텍스트 요약 정보
context_summary = context_manager.get_context_summary(session_id)
print(f"총 턴 수: {context_summary['total_turns']}")
print(f"추정 토큰 수: {context_summary['estimated_tokens']}")

# 요약 통계
summary_stats = context_manager.get_summary_stats(session_id)
print(f"총 요약 수: {summary_stats['total_summaries']}")
print(f"압축 비율: {summary_stats['compression_ratio']:.2f}")

🔧 요약 방법 상세

1. Simple (간단한 요약)

첫 100자 + 주요 키워드
빠르고 효율적
키워드 기반 정보 보존

2. Smart (스마트 요약)

첫 문장 + 마지막 문장 + 중간 요약
문맥 정보 최대한 보존
균형잡힌 요약 품질

3. Extractive (추출적 요약)

중요도 점수 기반 문장 선택
핵심 정보 우선 보존
가장 정확한 요약

🗜️ 압축 시스템

자동 압축 조건

턴 요약이 max_turns 초과 시
토큰 사용량이 summary_threshold 도달 시
5턴마다 자동 정리 실행

압축 과정

그룹화: 턴 요약들을 그룹으로 묶기
재요약: 그룹별로 주요 주제 추출
병합: 중복 제거 및 통합
교체: 기존 요약을 압축된 요약으로 교체

📊 성능 최적화

메모리 효율성

세션별 독립적인 메모리 관리
자동 가비지 컬렉션
점진적 압축으로 성능 저하 최소화

토큰 효율성

한국어/영어별 정확한 토큰 추정
요약 품질과 토큰 수의 균형
실시간 토큰 사용량 모니터링

🔍 디버깅 및 모니터링

로그 레벨

import logging
logging.basicConfig(level=logging.INFO)

# 상세한 로그 확인
logging.getLogger('lily_llm_core.context_manager').setLevel(logging.DEBUG)

주요 로그 메시지

📝 턴 요약 생성 완료: 턴 요약 생성 성공
🗜️ 턴 요약 압축 완료: 압축 실행 완료
🔄 자동 정리 시작: 자동 정리 실행
✅ 컨텍스트 압축 완료: 컨텍스트 압축 완료

🧪 테스트

테스트 실행

cd lily_generate_package
python test_advanced_context.py

테스트 시나리오

8턴 대화 시뮬레이션
자동 요약 생성 확인
압축 시스템 동작 확인
토큰 사용량 모니터링

🔗 API 연동

FastAPI 엔드포인트

@app.get("/context/summary/{session_id}")
async def get_context_summary(session_id: str):
    return context_manager.get_context_summary(session_id)

@app.get("/context/compressed/{session_id}")
async def get_compressed_context(session_id: str):
    return context_manager.get_compressed_context(session_id)

@app.post("/context/force-compress/{session_id}")
async def force_compression(session_id: str):
    context_manager.force_compression(session_id)
    return {"message": "강제 압축 완료"}

📈 성능 지표

일반적인 사용 사례

8턴 대화: 원본 2,000 토큰 → 요약 800 토큰 (60% 절약)
16턴 대화: 원본 4,000 토큰 → 요약 1,200 토큰 (70% 절약)
32턴 대화: 원본 8,000 토큰 → 요약 1,800 토큰 (77% 절약)

메모리 사용량

기본 모드: 2-3MB (8턴 기준)
요약 모드: 1-2MB (8턴 기준)
압축 모드: 0.5-1MB (8턴 기준)

🚨 주의사항

제한사항

요약 품질은 입력 텍스트의 복잡도에 따라 달라짐
매우 짧은 메시지(50자 미만)는 요약하지 않음
한국어/영어 외 언어는 기본 토큰 추정 사용

권장사항

중요한 정보는 시스템 프롬프트에 포함
정기적인 압축 실행으로 메모리 최적화
세션별 독립적인 컨텍스트 관리

🔮 향후 계획

예정된 기능

AI 기반 고품질 요약 (LLM 활용)
다국어 지원 확장
실시간 협업 세션 지원
클라우드 동기화

성능 개선

비동기 요약 처리
캐시 시스템 도입
분산 메모리 관리

📞 지원 및 문의

문제가 발생하거나 개선 제안이 있으시면 이슈를 등록해 주세요.

실무용 고급 컨텍스트 관리자로 효율적인 대화 히스토리 관리가 가능합니다! 🎉