metadata

language: ko
license: apache-2.0
tags:
  - summarization
  - legal
  - korean
datasets:
  - ai-hub
model_name: gemma-2b-it-sum-ko-legal
base_model:
  - google/gemma-2-2b-it

Gemma-2B-it-sum-ko-legal

모델 설명

Gemma-2B-it-sum-ko-legal은 AI 허브의 법률안 검토 보고서 요약 데이터셋을 기반으로 학습된 모델입니다. 이 모델은 법률 문서, 법률안 검토 보고서와 같은 한국어 문서를 간결하게 요약하는 데 특화되어 있으며, Hugging Face의 사전 학습된 Gemma 2B 모델을 기반으로 미세 조정되었습니다. 긴 법률 문서를 처리하고 핵심 내용을 자동으로 추출하여 법률 전문가들이 더 빠르고 효율적으로 문서를 검토할 수 있도록 돕습니다.

지원 언어: 한국어
특징: 법률 문서 요약에 최적화

모델 학습 과정

데이터셋

이 모델은 AI 허브의 법률안 검토 보고서 요약 데이터셋을 사용하여 학습되었습니다. 해당 데이터셋은 법률 문서의 구조와 내용을 이해하고 요약하는 데 적합한 데이터로, 여러 법률 주제를 포괄하고 있습니다.

학습 방법

모델은 Hugging Face의 Gemma 2B 사전 학습된 모델을 사용하여 미세 조정되었으며, 법률 문서의 특수성을 반영한 추가 학습을 통해 최적화되었습니다. 모델 학습에는 FP16 혼합 정밀도 학습이 사용되었으며, 주요 하이퍼파라미터는 아래와 같습니다:

배치 크기: 16
학습률: 5e-5
최적화 기법: AdamW
학습 에폭: 3
하드웨어: NVIDIA A100 GPU

코드 예시

아래 코드를 사용하여 이 모델을 로드하고 한국어 법률 문서를 요약할 수 있습니다.

from transformers import pipeline

# 모델 및 토크나이저 로드
pipe_finetuned = pipeline("text-generation", model="your-username/gemma-2b-it-sum-ko-legal", tokenizer="your-username/gemma-2b-it-sum-ko-legal", max_new_tokens=512)

# 요약할 텍스트 입력
paragraph = """
    한국의 법률안 검토 보고서 내용은 매우 복잡하고 긴 경우가 많습니다.
    이러한 문서를 요약하여 주요 정보를 빠르게 파악하는 것이 중요합니다.
"""

# 요약 요청
summary = pipe_finetuned(paragraph, do_sample=True, temperature=0.2, top_k=50, top_p=0.95)
print(summary[0]["generated_text"])