cyberagent
/

calm2-7b-chat-dpo-experimental

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

ddyuudd commited on Jan 24, 2024

Commit

d55a77e

·

verified ·

1 Parent(s): 9cf2255

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 license: cc-by-4.0
 datasets:
-- cyberagent/chatbot_arena_ja_calm2-7b-chat-experimental
 language:
 - ja
 - en
@@ -9,7 +9,7 @@ language:
 # Model Card for "calm2-7b-chat-dpo-experimental"
-[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)に[cyberagent/chatbot_arena_ja_calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot_arena_ja_calm2-7b-chat-experimental)データセットを用いて[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)をしたモデルです。
 DPOには[Low-Rank Adaptation (LoRA)](https://huggingface.co/docs/peft/conceptual_guides/lora)を用いました。
 ## Requirements, Usage, Chat Template

 ---
 license: cc-by-4.0
 datasets:
+- cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental
 language:
 - ja
 - en
 # Model Card for "calm2-7b-chat-dpo-experimental"
+[cyberagent/calm2-7b-chat](https://huggingface.co/cyberagent/calm2-7b-chat)に[cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental](https://huggingface.co/datasets/cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental)データセットを用いて[Direct Preference Optimization (DPO)](https://arxiv.org/abs/2305.18290)をしたモデルです。
 DPOには[Low-Rank Adaptation (LoRA)](https://huggingface.co/docs/peft/conceptual_guides/lora)を用いました。
 ## Requirements, Usage, Chat Template