--- language: ko license: apache-2.0 tags: - summarization - legal - korean datasets: - ai-hub model_name: gemma-2b-it-sum-ko-legal base_model: - google/gemma-2-2b-it --- # Gemma-2B-it-sum-ko-legal ## 모델 설명 **Gemma-2B-it-sum-ko-legal**은 AI 허브의 **법률안 검토 보고서 요약 데이터셋**을 기반으로 학습된 모델입니다. 이 모델은 법률 문서, 법률안 검토 보고서와 같은 한국어 문서를 간결하게 요약하는 데 특화되어 있으며, Hugging Face의 사전 학습된 **Gemma 2B** 모델을 기반으로 미세 조정되었습니다. 긴 법률 문서를 처리하고 핵심 내용을 자동으로 추출하여 법률 전문가들이 더 빠르고 효율적으로 문서를 검토할 수 있도록 돕습니다. - **지원 언어**: 한국어 - **특징**: 법률 문서 요약에 최적화 ## 모델 학습 과정 ### 데이터셋 이 모델은 **AI 허브의 법률안 검토 보고서 요약 데이터셋**을 사용하여 학습되었습니다. 해당 데이터셋은 법률 문서의 구조와 내용을 이해하고 요약하는 데 적합한 데이터로, 여러 법률 주제를 포괄하고 있습니다. ### 학습 방법 모델은 Hugging Face의 **Gemma 2B** 사전 학습된 모델을 사용하여 미세 조정되었으며, 법률 문서의 특수성을 반영한 추가 학습을 통해 최적화되었습니다. 모델 학습에는 **FP16 혼합 정밀도 학습**이 사용되었으며, 주요 하이퍼파라미터는 아래와 같습니다: - **배치 크기**: 16 - **학습률**: 5e-5 - **최적화 기법**: AdamW - **학습 에폭**: 3 - **하드웨어**: NVIDIA A100 GPU ## 코드 예시 아래 코드를 사용하여 이 모델을 로드하고 한국어 법률 문서를 요약할 수 있습니다. ```python from transformers import pipeline # 모델 및 토크나이저 로드 pipe_finetuned = pipeline("text-generation", model="your-username/gemma-2b-it-sum-ko-legal", tokenizer="your-username/gemma-2b-it-sum-ko-legal", max_new_tokens=512) # 요약할 텍스트 입력 paragraph = """ 한국의 법률안 검토 보고서 내용은 매우 복잡하고 긴 경우가 많습니다. 이러한 문서를 요약하여 주요 정보를 빠르게 파악하는 것이 중요합니다. """ # 요약 요청 summary = pipe_finetuned(paragraph, do_sample=True, temperature=0.2, top_k=50, top_p=0.95) print(summary[0]["generated_text"])