--- language: - ko tags: - pytorch - causal-lm - medical license: apache-2.0 pipeline_tag: text-generation --- [https://github.com/jwj7140/ko-medical-chat](https://github.com/jwj7140/ko-medical-chat) # Polyglot-Ko-Medical-5.8b polyglot-ko-medical은 [polyglot-ko](https://github.com/EleutherAI/polyglot)를 기반으로 의료 분야의 한글 raw 데이터를 학습시킨 기반 모델입니다. ## 학습 데이터 polyglot-ko-medical은 약 420MB의 의료 분야 한글 말뭉치로 학습되었습니다. 주요 데이터셋은 다음과 같습니다. | Source |Size (MB) | Link | |----------------------------------|---------|------------------------------------------| | AIHub 의료, 법률 전문 서적 말뭉치 | 351.0 | aihub.or.kr | | AIHub 전문분야 한영 말뭉치 | 63.4 | aihub.or.kr| | 질병관리청 국가건강정보포털 | 8.33 | health.kdca.go.kr | | 보건복지부 국가정신건강정보포털 | < 1.0 | mentalhealth.go.kr | ## 학습 polyglot-ko-medical-5.8b는 [EleutherAI/polyglot-ko-5.8b](https://huggingface.co/EleutherAI/polyglot-ko-5.8b)에서 qlora로 추가 학습되었습니다. - lora_alpha: 32 - lora_dropout: 0.05 - lora_r: 8 - target_modules: query_key_value - epoch: 3 - learning_rate: 3e-4