Edit model card

Oumuamua-7b-instruct-GGUF

This is quantized version of nitky/Oumuamua-7b-instruct created using llama.cpp

Model Description

This is a merge of pre-trained language models created using mergekit.

Output example

[INST] <<SYS>>
ใ‚ใชใŸใฏๆ—ฅๆœฌ่ชžใ‚’่ฉฑใ™ๅ„ช็ง€ใชใ‚ขใ‚ทใ‚นใ‚ฟใƒณใƒˆใงใ™ใ€‚ๅ›ž็ญ”ใซใฏๅฟ…ใšๆ—ฅๆœฌ่ชžใง็ญ”ใˆใฆใใ ใ•ใ„ใ€‚ใพใŸ่€ƒใˆใ‚‹้Ž็จ‹ใ‚‚ๅ‡บๅŠ›ใ—ใฆใใ ใ•ใ„ใ€‚
<</SYS>>

้“่ทฏใงๆณฃใ„ใฆใ„ใ‚‹ๅญไพ›ใŒใ„ใพใ™ใ€‚ใใฎๅญไพ›ใซใฏไฝ•ใŒใ‚ใฃใŸใจ่€ƒใˆใ‚‰ใ‚Œใพใ™ใ‹๏ผŸ [/INST] ้“่ทฏใงๆณฃใ„ใฆใ„ใ‚‹ๅญไพ›ใŒใ„ใ‚‹ๅ ดๅˆใ€่€ƒใˆใ‚‰ใ‚Œใ‚‹็†็”ฑใฏใ„ใใคใ‹ใ‚ใ‚Šใพใ™ใ€‚

1. ๆ€ชๆˆ‘ใ‚’ใ—ใŸ: ่ปขใ‚“ใงๆ€ชๆˆ‘ใ‚’ใ—ใŸใ‚Šใ€ไฝ•ใ‹ใซใถใคใ‹ใฃใฆ็—›ใฟใ‚’ๆ„Ÿใ˜ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
2. ่ฟทๅญใซใชใฃใŸ: ่ฆชใ‚„ไฟ่ญท่€…ใจใฏใใ‚Œใฆใ—ใพใฃใŸใ€ใพใŸใฏ้“ใซ่ฟทใฃใฆไธๅฎ‰ใซใชใฃใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
3. ใŠ่…นใŒ็ฉบใ„ใŸ: ้•ทๆ™‚้–“้ฃŸไบ‹ใ‚’ใ—ใฆใ„ใชใ„ใ€ใพใŸใฏใŠ่…นใŒ็ฉบใ„ใฆใ„ใ‚‹ใŸใ‚ใซๆณฃใ„ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
4. ็–ฒใ‚ŒใŸ: ้•ทๆ™‚้–“ๆญฉใ„ใฆใ„ใŸใ‚Šใ€้Šใณ็–ฒใ‚Œใฆ็–ฒใ‚Œใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
5. ๅฏ‚ใ—ใ‹ใฃใŸ: ไธ€ไบบใงใ„ใ‚‹ใ“ใจใซๅฏ‚ใ—ใ•ใ‚’ๆ„Ÿใ˜ใฆใ„ใ‚‹ใ€ใพใŸใฏ่ฆชใ‚„ๅ‹้”ใŒใ„ใชใใฆๅฏ‚ใ—ใ„ใจๆ„Ÿใ˜ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
6. ๆ€–ใ„ๆ€ใ„ใ‚’ใ—ใŸ: ่ปŠใ‚„ไธๅฏฉ่€…ใซ้ญ้‡ใ—ใŸใ€ใพใŸใฏไฝ•ใ‹ใซ้ฉšใ„ใŸๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
7. ไฝ“่ชฟใŒๆ‚ชใ„: ็™บ็†ฑใ‚„้ ญ็—›ใ€ๅใๆฐ—ใชใฉใฎไฝ“่ชฟไธ่‰ฏใ‚’ๆ„Ÿใ˜ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
8. ใƒˆใ‚คใƒฌใซ่กŒใใŸใ„: ใŠใ‚€ใคใŒๆฟกใ‚Œใฆใ„ใŸใ‚Šใ€ใƒˆใ‚คใƒฌใซ่กŒใใŸใใฆๆณฃใ„ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚
9. ไฝ•ใ‹ใ‚’ๆฑ‚ใ‚ใฆใ„ใ‚‹: ๆณจๆ„ใ‚’ๅผ•ใใŸใ‹ใฃใŸใ‚Šใ€ๅŠฉใ‘ใ‚’ๆฑ‚ใ‚ใฆใ„ใ‚‹ๅฏ่ƒฝๆ€งใŒใ‚ใ‚Šใพใ™ใ€‚

ๅญไพ›ใฎ็Šถๆณใ‚’ใ‚ˆใ่ฆณๅฏŸใ—ใ€ๅฃฐใ‚’ใ‹ใ‘ใฆ่ฉฑใ‚’่žใ„ใฆใฟใ‚‹ใ“ใจใŒๅคงๅˆ‡ใงใ™ใ€‚ๅฟ…่ฆใซๅฟœใ˜ใฆใ€ไฟ่ญท่€…ใ‚„่ญฆๅฏŸใ€ๆ•‘ๆ€ฅ่ปŠใ‚’ๅ‘ผใถใชใฉใฎๅฏพๅฟœใ‚’ใ™ใ‚‹ๅฟ…่ฆใŒใ‚ใ‚‹ใ‹ใ‚‚ใ—ใ‚Œใพใ›ใ‚“ใ€‚

Test environment

This model was tested using text-generation-webui. I use preset min_p and Null preset with temperature=0.3 for Generation.

Usage

This format must be adhered to strictly, as deviations may result in less optimal outputs from the model.

The template used to construct a prompt for the Instruct model is specified as follows:

<s>[INST] <<SYS>>\n{SYSTEM_PROMPT}\n<</SYS>>\n\n{USER_MESSAGE_1} [/INST] {BOT_MESSAGE_1}</s>[INST] {USER_MESSAGE_2} [/INST] 

Please be aware that <s> and </s> are special tokens used for the beginning of string (BOS) and end of string (EOS), respectively, while [INST] and [/INST] are considered regular strings.

For the "{SYSTEM_PROMPT}" part, We recommend using "ใ‚ใชใŸใฏๆ—ฅๆœฌ่ชžใ‚’่ฉฑใ™ๅ„ช็ง€ใชใ‚ขใ‚ทใ‚นใ‚ฟใƒณใƒˆใงใ™ใ€‚ๅ›ž็ญ”ใซใฏๅฟ…ใšๆ—ฅๆœฌ่ชžใง็ญ”ใˆใฆใใ ใ•ใ„ใ€‚ใพใŸ่€ƒใˆใ‚‹้Ž็จ‹ใ‚‚ๅ‡บๅŠ›ใ—ใฆใใ ใ•ใ„ใ€‚"

For the "{USER_MESSAGE_1}" part, We recommend using {instruction}\n{input}

In other words, We recommend the following:

<s>[INST] <<SYS>>\nใ‚ใชใŸใฏๆ—ฅๆœฌ่ชžใ‚’่ฉฑใ™ๅ„ช็ง€ใชใ‚ขใ‚ทใ‚นใ‚ฟใƒณใƒˆใงใ™ใ€‚ๅ›ž็ญ”ใซใฏๅฟ…ใšๆ—ฅๆœฌ่ชžใง็ญ”ใˆใฆใใ ใ•ใ„ใ€‚ใพใŸ่€ƒใˆใ‚‹้Ž็จ‹ใ‚‚ๅ‡บๅŠ›ใ—ใฆใใ ใ•ใ„ใ€‚\n<</SYS>>\n\n{instruction1}\n{input1} [/INST] {BOT_MESSAGE_1}</s>[INST] {instruction2}\n{input2} [/INST] 

Use the instruct model

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "nitky/Oumuamua-7b-instruct"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

device = "cuda"

messages = [
    {"role": "system", "content": "ใ‚ใชใŸใฏๆ—ฅๆœฌ่ชžใ‚’่ฉฑใ™ๅ„ช็ง€ใชใ‚ขใ‚ทใ‚นใ‚ฟใƒณใƒˆใงใ™ใ€‚ๅ›ž็ญ”ใซใฏๅฟ…ใšๆ—ฅๆœฌ่ชžใง็ญ”ใˆใฆใใ ใ•ใ„ใ€‚ใพใŸ่€ƒใˆใ‚‹้Ž็จ‹ใ‚‚ๅ‡บๅŠ›ใ—ใฆใใ ใ•ใ„ใ€‚"},
    {"role": "user", "content": "้“่ทฏใงๆณฃใ„ใฆใ„ใ‚‹ๅญไพ›ใŒใ„ใพใ™ใ€‚ใใฎๅญไพ›ใซใฏไฝ•ใŒใ‚ใฃใŸใจ่€ƒใˆใ‚‰ใ‚Œใพใ™ใ‹๏ผŸ"}
]

encodeds = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = encodeds.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, max_new_tokens=256, do_sample=True, temperature=0.3)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

Merge Details

Merge Method

This model was merged using the Model Stock merge method using nitky/Oumuamua-7b-base as a base.

Models Merged

The following models were included in the merge:

Configuration

The following YAML configuration was used to produce this model:

merge_method: task_arithmetic
base_model: mistralai/Mistral-7B-v0.1
models:
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: model:tokyotech-llm/Swallow-MS-7b-v0.1
name: Mistral-7B-v0.1-VE-Swallow-MS
---
merge_method: task_arithmetic
base_model: stabilityai/japanese-stablelm-base-gamma-7b
models:
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: model:tokyotech-llm/Swallow-MS-7b-v0.1
name: japanese-stablelm-base-gamma-7b-VE-Swallow-MS
---
merge_method: task_arithmetic
base_model: DataPilot/ArrowPro-7B-KillerWhale
models:
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: model:tokyotech-llm/Swallow-MS-7b-v0.1
name: ArrowPro-7B-KillerWhale-VE-Swallow-MS
---
merge_method: task_arithmetic
base_model: nitky/RP-7b-instruct
models:
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: model:tokyotech-llm/Swallow-MS-7b-v0.1
name: RP-7b-instruct-VE-Swallow-MS
---
merge_method: task_arithmetic
base_model: mistralai/Mistral-7B-Instruct-v0.3
models:
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight:
      - filter: embed_tokens
        value: 1.0
      - value: 0
dtype: bfloat16
tokenizer_source: model:tokyotech-llm/Swallow-MS-7b-v0.1
name: Mistral-7B-Instruct-v0.3-VE-Swallow-MS
---
merge_method: linear
models:
  - model: nitky/Oumuamua-7b-base
    parameters:
      weight: 1.0
  - model: tokyotech-llm/Swallow-MS-7b-instruct-v0.1
    parameters:
      weight: 0.8
  - model: tokyotech-llm/Swallow-MS-7b-v0.1
    parameters:
      weight: -0.8
  - model: Mistral-7B-Instruct-v0.3-VE-Swallow-MS
    parameters:
      weight: 0.8
  - model: Mistral-7B-v0.1-VE-Swallow-MS
    parameters:
      weight: -0.8
dtype: bfloat16
name: Oumuamua-7b-instruct-alpha
---
merge_method: linear
models:
  - model: nitky/Oumuamua-7b-base
    parameters:
      weight: 1.0
  - model: ArrowPro-7B-KillerWhale-VE-Swallow-MS # include Mistral-7B-Instruct-v0.3
    parameters:
      weight: 0.8
  - model: japanese-stablelm-base-gamma-7b-VE-Swallow-MS
    parameters:
      weight: -0.8
dtype: bfloat16
name: Oumuamua-7b-instruct-beta
---
merge_method: linear
models:
  - model: nitky/Oumuamua-7b-base
    parameters:
      weight: 1.0
  - model: RP-7b-instruct-VE-Swallow-MS
    parameters:
      weight: 0.8
  - model: japanese-stablelm-base-gamma-7b-VE-Swallow-MS
    parameters:
      weight: -0.8
  - model: Mistral-7B-Instruct-v0.3-VE-Swallow-MS
    parameters:
      weight: 0.8
  - model: Mistral-7B-v0.1-VE-Swallow-MS
    parameters:
      weight: -0.8
dtype: bfloat16
name: Oumuamua-7b-instruct-gamma
---
merge_method: model_stock
base_model: nitky/Oumuamua-7b-base
models:
  - model: Oumuamua-7b-instruct-alpha
  - model: Oumuamua-7b-instruct-beta
  - model: Oumuamua-7b-instruct-gamma
dtype: bfloat16
name: Oumuamua-7b-instruct
Downloads last month
2,287
GGUF
Model size
7.33B params
Architecture
llama

Quantized from