The license is cc-by-nc-sa-4.0.

Commercializing is not allowed.

Model Card for Model ID

기존의 DopeorNope/Ko-Mixtral-v1.3-MoE-7Bx2 모델에서 향상된 1.4버전입니다.

추가된 사항은 다음과 같습니다.

훈련에 활용된 코퍼스를 매뉴얼하게 검토하고 이상한 코퍼스를 수정하고 정제하였습니다.
Near dudup 알고리즘을 적용하여 중복되는 코퍼스를 제거하였습니다.
기존의 3가지 task에서 한가지 task를 추가하였습니다.

Model Details

Model Description

Developed by: DopeorNope(Seungyoo Lee), kyujinpy(Kyujin Han)
Model type: Mixtral
Language: English based model but finetuned with Korean corpus
License: cc-by-nc-sa-4.0
Finetuned from model: DopeorNope/Ko-Mixtral-v1.3-MoE-7Bx2
funded by: the Ministry of Science and ICT(MSIT, Korea) & Gwangju Metropolitan City

Training

Testing Data

AI-HUB에서 제공된 코퍼스를 가지고 다음과 같은 4가지 task를 text mining으로 만들어 적용하였습니다.

1.Mask prediction Task


#Mask prediction

#문장에서 한국어 단어를 마스킹 한 이후, 이 단어를 예측하게 만드는 Task입니다.
 
Text='지능(智能) 또는 인텔리전스(intelligence)는 인간의 <MASK> 능력을 말한다.'

Response='지적'

Complete_text='지능(智能) 또는 인텔리전스(intelligence)는 인간의 지적 능력을 말한다.'

2.Text-allign Task


#Text-allign Task

#문단에서 각 문장들을 추출하고 추출한 문장들을 무작위로 섞은 후 섞은 문장들을 문맥상 적절하게 배열하는 태스트 입니다.

Text_list=['복수명령-복수자료(MIMD,Multiple Instruction, Multiple Data)은 전산에서 병렬화의 한 기법이다.',
           '분산 메모리의 예는 MPP(massively parallel processors)와 COW (Clusters of Workstations)이다.',
           'MIMD기계는 공유 메모리이거나 분산 메모리이며 이러한 분류는 MIMD가 어떻게 메모리를 이용하느냐에 따라 나뉜다.']



Response='복수명령-복수자료(MIMD,Multiple Instruction, Multiple Data)은 전산에서 병렬화의 한 기법이다.
          MIMD기계는 공유 메모리이거나 분산 메모리이며 이러한 분류는 MIMD가 어떻게 메모리를 이용하느냐에 따라 나뉜다.
          분산 메모리의 예는 MPP(massively parallel processors)와 COW (Clusters of Workstations)이다.'

3.Text completion Task


#Text Completion

# 문단에서 마지막 문장을 추출하고, 추출된 문장의 이전의 문단까지를 input으로 하여 마지막 문장을 예측하게 하는 과제입니다.

Text= '그린브라우저(GreenBrowser)는 인터넷 익스플로러에서 사용하는 트라이던트 레이아웃 엔진을 바탕으로 하며 중국에 기반을 둔 소프트웨어 회사인 모어퀵(morequick)에서 만든 무료 웹 브라우저다. 간체자 중국어가 웹 브라우저에 내장되어 있다.
      맥스톤 웹 브라우저와 비슷하여 MyIE와 밀접하게 관련되어 있다. 맥스톤용의 일부 플러그인이 그린브라우저에서도 작동할 것이다.'


Response= '자동 스크롤, 자동 리프레시, 자동 저장, 자동 폼 채우기와 같은 많은 자동화 기능이 있다.'

4. Sentence Genration


#Text Completion

# 문장에서 모든 단어들을 추출하고 무작위로 섞은 후 중복된 단어를 제거하고, 제시된 단어 리스트를 기반으로 완벽한 문장을 생성해내는 task입니다.

Word_List: ['φ의', '제어에서는', '제어와', '표현이', 'ψ', '로봇', '쓰인다', 'θ', '같은', '자주', '기기']



response= '자동 스크롤, 자동 리프레시, 자동 저장, 자동 폼 채우기와 같은 많은 자동화 기능이 있다.'

Environments

Hardware Type: Nvidia A100 x 4
Training hours: 3 Days