Kosmic-122B-A10B-FP8

Kosmic은 Prosoft에서 개발한 122B 파라미터 AI 어시스턴트입니다. Qwen3.5-122B-A10B 기반으로 산업용으로 파인튜닝 후 FP8 (E4M3) 양자화하여 효율적으로 배포할 수 있도록 제작되었습니다.

모델 정보

항목
기반 모델 Qwen/Qwen3.5-122B-A10B
전체 파라미터 122B (활성 파라미터: 10B, MoE)
양자화 FP8 E4M3, 블록 크기 [128, 128]
모델 크기 약 118 GB
아키텍처 48 하이브리드 레이어: 36 GDN (Gated Delta Net) + 12 Full Attention, 전체 MoE
전문가 수 256개 (토큰당 8개 라우팅 + 1개 공유)
최대 컨텍스트 262,144 토큰
지원 언어 한국어, 영어, 다국어

사용 방법

vLLM 서빙

vllm serve prosoft0405/Kosmic-122B-A10B-FP8 \
  --tensor-parallel-size 2 \
  --trust-remote-code \
  --max-model-len 32768

API 호출 예시

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="prosoft0405/Kosmic-122B-A10B-FP8",
    messages=[
        {"role": "system", "content": "You are Kosmic, an AI assistant developed by Prosoft."},
        {"role": "user", "content": "안녕하세요! 자기소개 해주세요."}
    ],
    max_tokens=1024,
    temperature=0.7,
)
print(response.choices[0].message.content)

Ollama 사용

ollama run prosoft0405/kosmic-122b

양자화 방법

  • FP8 (E4M3) 블록 단위 양자화 (블록 크기 128)
  • Qwen/Qwen3.5-122B-A10B-FP8 공식 포맷과 동일
  • 자체 파인튜닝 후 기반 가중치에 머지하여 양자화

하드웨어 요구사항

구성 최소 요구
GPU VRAM 약 120 GB (TP=2: 60 GB × 2장)
권장 GPU RTX PRO 6000 Blackwell × 2, A100 80GB × 2, H100 × 2 등

라이선스

이 모델은 Apache 2.0 라이선스로 배포됩니다.

크레딧

Downloads last month
7
Safetensors
Model size
122B params
Tensor type
F32
·
BF16
·
F8_E4M3
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for prosoft0405/Kosmic-122B-A10B-FP8

Quantized
(115)
this model