Safetensors
Korean
English
gemma4

You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

ExtGemma4-41B (Gemma4-31B 레이어 확장 모델)

모델 카드 (Model Card)


1. 모델 요약 (Model Summary)

ExtGemma4-41B는 Google의 google/gemma-4-31B-it를 기반으로, 레이어 확장(Layer Expansion) 기법을 적용하여 60층에서 80층으로 늘린 대규모 언어 모델입니다.
본 모델은 한국어 법률(민사법) 및 STEM 도메인에 대한 적응형 사전학습과 Instruction Tuning을 거쳐, 추론 능력(CoT, Chain-of-Thought) 향상지식 확장을 목표로 개발되었습니다.

  • 개발자: Nextnine (경복대학교 창업보육센터 소속)
  • 베이스 모델: google/gemma-4-31B-it
  • 모델 크기: 약 42B 파라미터 (확장 후)
  • 아키텍처: Gemma4 기반, Hybrid Attention (Sliding + Full)
  • 라이선스: 기본 모델 및 사용 데이터셋의 라이선스를 따름 (비상업적 연구 목적 권장)

2. 제작 목적 및 용도 (Intended Use)

Primary Use Cases

  • 한국어 법률 문서 이해 및 추론: 민사법 등 법률 분야의 질의응답, 문서 요약, 판례 분석
  • STEM 분야 추론: 수학, 과학, 기술 문제 해결 및 설명 생성
  • Chain-of-Thought(CoT) 연구: 단계적 추론 과정을 통한 정답 도출 능력 평가

Limitations

  • 본 모델은 연구 및 평가 목적으로 제작되었으며, 실제 법률 자문 또는 의료/금융 등 고위험 분야에 사용해서는 안 됩니다.
  • 확장된 레이어로 인해 추론 속도 및 메모리 사용량이 증가할 수 있습니다.
  • 한국어 외 다른 언어에 대한 성능은 보장되지 않습니다.

3. 아키텍처 상세 (Architecture Details)

3.1 레이어 확장 설계 (Option B)

원본 Gemma4-31B(60층)의 레이어 구조를 유지하면서, 각 블록(6층) 내에서 Sliding Attention 레이어를 2개씩 추가하여 총 80층으로 확장했습니다.

원본:  [s0, s1, s2, s3, s4,             F] × 10 = 60레이어
확장:  [s0, s1, s1, s2, s3, s4, s4, F] × 10 = 80레이어
              ↑ 앞쪽 복제        ↑ 뒤쪽 복제
  • 삽입 레이어 인덱스 (총 20개): [1, 6, 9, 14, 17, 22, 25, 30, 33, 38, 41, 46, 49, 54, 57, 62, 65, 70, 73, 78]
  • Full Attention 위치: [7, 15, 23, 31, 39, 47, 55, 63, 71, 79] (매 블록 마지막 층)
  • Sliding Window 크기: 1024 (변경 없음)

3.2 초기화 전략 (Identity Initialization)

확장된 레이어가 파인튜닝 전에도 베이스 모델과 동일한 출력을 보장하도록 LLaMA-Pro 방식의 Identity 초기화를 적용했습니다.

  • Zero-Initialization:
    • self_attn.o_proj.weight → 0
    • mlp.down_proj.weight → 0
  • Gemma4 특수 보정:
    • 삽입 레이어의 layer_scalar 파라미터를 1.0으로 설정 (기본값 0.0654).
      • Gemma4는 forward 마지막에 hidden_states *= layer_scalar를 수행하므로, 이 값을 1로 두지 않으면 잔차 경로가 왜곡됩니다.
  • 검증 완료: 확장 직후 베이스 모델과의 logit 차이는 0.000e+00으로, 항등 함수가 정확히 구현되었음을 확인했습니다.

3.3 주요 변경 사항 (Config)

  • text_config.num_hidden_layers: 60 → 80
  • text_config.layer_types: 80개 배열 (sliding × 7, full × 1 반복)
  • model.safetensors.index.json: 숫자 정렬 적용 (GGUF 변환 시 블록 순서 보장)

4. 학습 데이터 (Training Data)

본 모델은 아래의 데이터셋을 참조하여 사전학습(계속적 학습)Instruction Tuning을 수행했습니다.

데이터셋 출처 용도
민사법 LLM 사전학습 데이터 AIHub (https://aihub.or.kr) 법률 도메인 적응형 사전학습
민사법 Instruction Tuning 데이터 AIHub 법률 QA 및 추론 튜닝
KMMLU-PRO HAERAE-HUB (arXiv:2402.11548) 한국어 다중 분야 추론 평가
CLiCK EunsuKim/CLiCK (HuggingFace) 한국어 대화 및 지식 추론 데이터

참고: 데이터셋별 라이선스 및 이용 조건은 각 데이터셋의 원본 페이지를 따릅니다.


5. 평가 및 성능 (Evaluation)

  • 본 모델은 한국어 법률 및 STEM 추론 벤치마크(KMMLU-PRO 등)에서 개선된 성능을 목표로 합니다.
  • CoT 프롬프팅을 통해 단계적 추론 능력이 향상될 것으로 기대됩니다.

6. 사용 방법 (Usage)

6.1 권장 실행 파라미터 (Inference)

--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
--min-p 0.00

6.2 Transformers 예제

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Nextnine/ExtGemma4-41B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

inputs = tokenizer("한국의 민법 제1조는 무엇인가요?", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=512, temperature=1.0, top_p=0.95, top_k=64)
print(tokenizer.decode(outputs[0]))

6.3 llama.cpp (GGUF) 사용 예시

./llama-cli -m ExtGemma4-41B.gguf -p "민법상 계약의 성립 요건을 설명해주세요." -n 512 --temp 1.0 --top-p 0.95 --top-k 64

7. 라이선스 및 사용 제한 (License & Restrictions)

  • 본 모델은 학술 연구 및 비상업적 목적으로만 사용할 것을 권장합니다.
  • 모델 및 데이터셋의 라이선스는 각각의 원본 저작권자 및 배포처의 조건을 따릅니다.
    • 베이스 모델: google/gemma-4-31B-it (Google Gemma 라이선스)
    • 데이터셋: 각 데이터셋 페이지에 명시된 라이선스 준수 (명시되지 않은 경우 원저자의 의도를 존중하여 연구/비상업적 용도로 제한)
  • 본 모델은 실제 법률 자문, 의료 진단, 금융 결정 등에 사용될 수 없습니다.

8. 인용 (Citation)

본 모델을 연구에 활용하실 경우 아래와 같이 인용해 주시기 바랍니다.

@misc{nextnine_extgemma4_2026,
  author = {Nextnine (Kyungbok University Startup Incubator)},
  title = {ExtGemma4-41B: Layer-Expanded Gemma4 for Korean Legal and STEM Reasoning},
  year = {2026},
  publisher = {Hugging Face},
  url = {https://huggingface.co/Nextnine/ExtGemma4-41B}
}

9. 문의 (Contact)

  • 개발자: Nextnine (경복대학교 창업보육센터)
  • 이메일: (추후추가)
  • GitHub: (추후추가)

모델 카드 버전: 1.0 (2026년 6월)

Downloads last month
3
Safetensors
Model size
41B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for TOTORONG/extGemma4-41B

Finetuned
(207)
this model
Finetunes
1 model

Datasets used to train TOTORONG/extGemma4-41B

Paper for TOTORONG/extGemma4-41B