File size: 6,403 Bytes
4841156 b5b035f 707e648 a155f28 707e648 4841156 707e648 4841156 707e648 4841156 707e648 4841156 16ce616 707e648 4841156 707e648 4841156 707e648 4841156 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 |
---
library_name: sentence-transformers
pipeline_tag: sentence-similarity
tags:
- sentence-transformers
- feature-extraction
- sentence-similarity
---
# COCO0414/bge-m3-ko_DNF
This model was created to use RAG. [bge-m3](https://huggingface.co/BAAI/bge-m3) based model, fitting Dungeon & Fighter data.
Trained data, [Kakao_brain](https://github.com/kakaobrain/kor-nlu-datasets) koSTS, koNLI Data and then [Dungeon&Fighter](https://df.nexon.com) user community QA board, extract 79k QA pairs data in 20k articles and 13k QA data using ChatGPT based on [DFU](https://www.dnf-universe.com/) articles
Fianl Model, bge-m3-ko_DNF is Mixed bge-m3 and trained model. Mixed reason detail read bge-m3 [Page](https://github.com/FlagOpen/FlagEmbedding/tree/master/examples/finetune)
While the overall similarity has decreased, the discriminatory power between queries (questions) and chunks (answer search space) has increased, allowing for more accurate parsing of Dungeon & Fighters information.
<!--- Describe your model here -->
## Usage (Sentence-Transformers)
Using this model becomes easy when you have [sentence-transformers](https://www.SBERT.net) installed:
```
pip install -U sentence-transformers
```
Then you can use the model like this:
```python
from sentence_transformers import SentenceTransformer
import torch
question = "μ¬λλ€μ λν΄μ μλ €μ€"
# Data from namuwiki
reval_content = "μ 6 μ¬λμ 7 μ¬λμ 8 μ¬λ무νμ μλ‘μ½κ²μ μ§λ³μ λλ μ§μλΆμ λ¨Ήλ μν€κΈ΄ λ°μ λ‘ν°μ€μ 9 μ¬λμ 10 μ¬λμ 11 μ¬λμ 12 μ¬λ(θ) ν룑μ λ°μΉΌ(ζ°) 건μ€μ 루ν¬μ±μμ λ―ΈμΉ΄μλΌνΌλμ μ€μ¦λ§μΈλ¦¬μ ν€λ₯΄λ―Ό κ°μ΄ 보기: ν
μλ(μΈκ³΅μ )μ 1 μ¬λ - μλͺ
μ μΉ΄μΈ. μ£½μμ΄ λλ €μνλ μ.μ 2 μ¬λ - μ°λ λμ νλ. λ κ°μ§ μΌκ΅΄μ μ°¬μ°ν λΉλλ μ΄μ¬μ κ°μΆ μ.[A] μ 3 μ¬λ - 창곡μ μ΄μμ€-νλ μ΄ (νλ μ΄-μ΄μμ€). λ
μ λ°μ λμ§ μλ μ.μ 4 μ¬λ - μ 볡μ μΉ΄μμΌμ€. νΌλ‘ κ°μ² μ μ μλ μ.μ 5 μ¬λβ - 무νμ μλ‘μ½. μ λ°±μ μΌκ΅΄μ κ°μ‘μΌλ 보μ΄μ§ μλ μ. - (μ€λ¦¬μ§ μ΄μ )λ‘μμκ² μ¬λ§. (μ€λ¦¬μ§ μ΄ν) 4μΈμ μ¨νλ§μ€ν°μκ² μ¬λ§.[4]μ΄ν κ·Έλ¦Όμμ»€κ° μ¬λ
μ λͺ¨λ λͺ¨μ λ€μ λΆννκ³ νλμ±μ μ λ Ήν λ€ μ΄νΌ 곡μ
μ§λκ° μλ μ²κ³λ₯Ό λ
Έλ¦¬κ³ μλ€. κ·Έλ¬λ κ²°κ΅ λ―Έλ¦¬ λκΈ°νκ³ μλ μ²κ³κ΅°μκ² μ§μ€ν¬νλ‘ λ λ€μ μ¬λ§.μ 6 μ¬λ - κ²μ μ§λ³μ λλ μ§μ. λλ¬μ΄ νΌλ₯Ό ν리λ μ. - λ
Έμ€λ§μ΄μ΄λ‘ μ μ΄λμ΄ λͺ¨νκ°μ λ―Έμ, μμ €λ¦¬μμκ² ν¨λ°°ν λ€ νλμ κ³λ΅μΌλ‘ μΈν΄ μ°¨μμ νμΌλ‘ λΉ¨λ €λ€μ΄κ° μ¨ λͺΈμ΄ κ°κ°μ΄ 찒겨 λκ°λ©° λ΄μΈ. μ€μ μ λΆμ¬μ΄κΈ°μ μλ©Ένμ§ μμκ³ , λΆμμ ν μ°¨μ μμμ λ€μ νμ κΈ°λ₯΄λ μ€.μ 7 μ¬λβ - λΆμ λ¨Ήλ μν€. λͺΈμ λ»μ΄ λ₯ν μΈμ λμ λΏμ μ μλ μ. - νμμ€ν
μ΄μ
μ μ μ΄λμ΄ λͺ¨νκ°μ μ²κ³ ν λ²κ΅°μκ² μ¬λ§.μ 8 μ¬λβ - κΈ΄λ°μ λ‘ν°μ€. νλ²μ μμ²μ 무기λ₯Ό μ₯ μ μλ μ. - λ² νλͺ¨μ€λ‘ μ μ΄λμ΄ 3μΈμ μ¨νλ§μ€ν°λ€κ³Ό μ κ΅κ΅°, λͺ¨νκ°μκ² μ¬λ§.(θ)μ 9 μ¬λβ - ν룑μ λ°μΉΌ. λΆμ μ¨κ²°μ λ΄λ μ. - 500λ
μ λ§κ³μμ λλ§μ³ λμ μ²κ³λ₯Ό μ§λ°°νλ μ€ μ²κ³ μ νκ΅°μ μν΄ μ¬λ§.[5](ζ°)μ 9 μ¬λβ - 건μ€μ 루ν¬. λ§ μμ΄ νμ λ§μ§λ μ. - μμ μ κ±°μ£Όμ§μΈ μ£½μ μμ μ±μμ μ¬λ§.[6]μ 10 μ¬λ - μ±μμ λ―ΈμΉ΄μλΌ. μ§μ€μ κΏ°λ«μ΄ 보λ μ.[7]μ 11 μ¬λβ - νΌλμ μ€μ¦λ§. μ£½μμμ μΌμ΄λ μ. κ²μ λμ§μμ μΉ΄μμ μν΄ λ΄μΈ μ€μ΄μμΌλ, μ΄ν λ΄μΈμ΄ μμ ν νλ € λ λ°λ€κ° λͺ¨νκ°λ€κ³Όμ κ²°μ μΌλ‘ μ¬λ§.μ 12 μ¬λ - μΈλ¦¬μ ν€λ₯΄λ―Ό. λΉλ°μ μκ³ μλ μ.[A]νμ¬ νλ μΈ : μλΌλμ μ΄μΌκΈ° μ§ν μν©μμ μ΄μμλ μ¬λλ μΉ΄μΈ, νλ, μ΄μμ€-νλ μ΄, μΉ΄μμΌμ€, λλ μ§μ, λ―ΈμΉ΄μλΌ, μΈλ¦¬μκΉμ§ μ΄ 7λͺ
μ΄λ€.μ¬λμ μμλ λ§κ³μ μ¬λΌν μμμ΄κΈ΄ νλ° μμ΄μλ μν₯μ΄ μκΈ΄ νμ§ μ 4μ¬λ μΉ΄μμΌμ€μ κ²½μ° κ΅¬ μ€ν 리μμλ μμ΄ 4μμ μ¬λλΌκ³ νλ€. λ―ΈμΉ΄μλΌλΆν°λ λ§κ³λ μΈμ°μ΄ μλ μ¬λμ΄λ€.3. λͺ¨ν°λΈ[νΈμ§]μ λλ μμμ μ΄λ μ μμΈ μ¬λμ΄λ€. νΈμΉλ κ°μλ°λ€κ° λ§μΉ¨ μ«μλ λ± μ΄λμ΄κ³ κ·Έλ€ μ€ νλκ° λ΄μ³μ§κ³ λ€λ₯Έ μ΄κ° μλͺ
λ μΌκΉμ§ μμμ μ΄λ μ¬λλ λ± λ€μ΄λ§λλ€.[9] μ°½μΈκΈ°, μ’
μΈκΈ°, μ°½μ μΈκΈ°λ‘ μ΄λ£¨μ΄μ§ λνμ μ±μλ μ±κ²½μ λͺ¨ν°λΈλ‘ ν κ²μ΄λ―λ‘ μ΄μ° 보면 μμ°μ€λ¬μ΄ μ°κ²°μ΄λ€.λν, κ° μ¬λλ€μ λ°μλ κ°λ³μ λͺ¨ν°λΈλ λ€μκ³Ό κ°λ€. μΈκΈλμ§ μμ μ¬λλ λ€μ€νμμ λ
μμ μΌλ‘ μ°½μν μΌμ΄μ€λ€.μΉ΄μΈ: μ±κ²½(μλ΄, μΉ΄μΈ)νλ: μ±κ²½(νμ)μ΄μμ€-νλ μ΄/νλ μ΄-μ΄μμ€: μ¬λΌλΈ μ ν(벨λ‘보그, 체λ₯΄λ
Έλ³΄κ·Έ), λΆμ λ½ μ ν(νλ μ΄), μ΄μ§νΈ μ ν(μ΄μμ€) [10]μΉ΄μμΌμ€: μΌλ³Έ μκ΄΄(μ€λ)μλ‘μ½: μ¬νλΌ μ¬λ§μ μ΄ν(μλ‘μ½)[11]λλ μ§μ: μ§λ³(νμ¬λ³ λ±)λ‘ν°μ€: λ°λ€κ΄΄λ¬Ό(ν¬λΌμΌ)λ°μΉΌ: μ
λ§μ± λλΌνλΌ(λλΌνλΌ λΈλΌλ 체νμ)루ν¬: μΌνΈ μ ν(루 λΌμλ)λ―ΈμΉ΄μλΌ: κ°ν¨λ¦(λ©μμ)μ€μ¦λ§: μ
λ§μ± λλΌνλΌ(λλΌνλΌ λΈλΌλ 체νμ)μΈλ¦¬μ ν€λ₯΄λ―Ό: ???3.1. λ¬Έμ[νΈμ§]μ¬λμκ² μμ μ μμ§νλ κ³ μ μ λ¬Έμμ΄ μ‘΄μ¬νλ©° μ¬λμ κ΄λ ¨λ μ¬κ±΄μ΄ μΌμ΄λ¨μ λ°λΌ λ¬Έμμ΄ λ³κ²½λλ κ²½μ°λ μλ€.[12]μΉ΄μΈμ κ·Έλ₯Ό λλ €μνκ³ κ²½μΈνλ μλ€μ μν΄μ λ¬Έμμ΄ λ§λ€μ΄μ‘λ€. νλλ μμ μ΄ κ°μ§ μ°λ λμ νμννμ¬ λ¬Έμμ λ§λ€μλ€. ν
λΌμ½νμμλ μ΄ λ¬Έμμ μ μ±νκ² μ¬κΈ΄λ€. μ΄μμ€-νλ μ΄λ κ·Έλ₯Ό λ°λ₯΄λ μΆμ’
μλ€μ μν΄μ λ¬Έμμ΄ λ§λ€μ΄μ‘μΌλ©°, λ°€μ λ§μ²λ£¨ μ ν¬ μ΄νμ μ΄μμ€μ μμ§μ΄[13] μΆκ°"
model = SentenceTransformer('COCO0414/bge-m3-ko_DNF')
question_embedding = model.encode(question, convert_to_tensor=True)
answer_embedding = model.encode(answer, convert_to_tensor=True)
similarity = torch.nn.functional.cosine_similarity(question_embedding, answer_embedding, dim=0)
print(similarity.item())
# 0.6637
```
|