dahara1 commited on
Commit
a3bf29a
·
verified ·
1 Parent(s): 2f45029

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +17 -5
README.md CHANGED
@@ -8,13 +8,14 @@ tags:
8
 
9
  日英、英日ニューラル機械翻訳モデルである[webbigdata/C3TR-Adapter](https://huggingface.co/webbigdata/C3TR-Adapter)をGPUがないPCでも動くggufフォーマットに変換したモデルです。
10
 
11
- 残念ながら現在のgguf版は翻訳後に幻覚を追加してしまう傾向があり、パラメーターを適宜調整する必要があります。
12
- Unfortunately, the GGUF version tends to add hallucinations after translation.
13
 
14
  [Colab Sample C3TR_Adapter_gguf_Free_Colab_sample](https://github.com/webbigdata-jp/python_sample/blob/main/C3TR_Adapter_gguf_Free_Colab_sample.ipynb)
15
 
16
- llama.cppを使うと、様々な量子化手法でファイルのサイズを小さくする事が出来ます。本サンプルでは5種類のみを扱います。小さいサイズのモデルは、少ないメモリで高速に動作させることができますが、モデルの性能も低下します。4ビット(q4_0)くらいがバランスが良いと言われていますが、本サンプルコードでは特定の文章を全モデルで翻訳し、どのモデルが貴方の作業に適切かを確認できるようにしたものです。残念ながら現在のgguf版は翻訳後に幻覚を追加してしまう傾向があります。
17
- Although llama.cpp can be used to reduce the size of the file with various quantization methods, this sample deals with only 5 types. Smaller models can run faster with less memory, but the performance of the models is also reduced. 4 bits (q4_0) is said to be a good balance, but this sample code translates a particular sentence with all models so that you can see which model is appropriate for your work. This sample code translates a specific sentence across all models so that you can see which model is appropriate for your work.Unfortunately, the current gguf implementation tends to add hallucinations after translation.
 
18
 
19
  - C3TR-Adapter.Q4_0.gguf 5.01 GB
20
  - C3TR-Adapter.Q4_1.gguf 5.5 GB
@@ -27,10 +28,21 @@ Although llama.cpp can be used to reduce the size of the file with various quant
27
  - 温度(--temp): この値を下げると、モデルがより確信度の高い(つまり、より一般的な)単語を選択する傾向が強くなります。
28
  - トップP(--top_p): この値をさらに低く設定することで、モデルが考慮する単語の範囲を狭め、より一貫性のあるテキストを生成するようになります。
29
  - 生成する単語数(-n): この値を減らすことで、モデルが生成するテキストの長さを短くし、不要な追加テキストの生成を防ぐことができます。-1 = 無限大、-2 = 文脈が満たされるまで。
30
- Adjust the following parameters
 
 
 
 
 
 
31
 
32
  - Temperature (--temp): Lowering this value will make the model more likely to select more confident (i.e., more common) words.
33
  - Top P (--top_p): Setting this value even lower will narrow the range of words considered by the model and produce more consistent text.
34
  - Number of words to generate (-n): Reducing this value will shorten the length of text generated by the model and prevent the generation of unnecessary additional text. -1 = infinity(default), -2 = until context filled.
35
 
 
 
 
 
 
36
 
 
8
 
9
  日英、英日ニューラル機械翻訳モデルである[webbigdata/C3TR-Adapter](https://huggingface.co/webbigdata/C3TR-Adapter)をGPUがないPCでも動くggufフォーマットに変換したモデルです。
10
 
11
+ 現在のgguf版は翻訳後に幻覚を追加してしまう傾向があり、パラメーターを適宜調整する必要があります。
12
+ The current gguf version tends to add hallucinations after translation and the parameters need to be adjusted accordingly.
13
 
14
  [Colab Sample C3TR_Adapter_gguf_Free_Colab_sample](https://github.com/webbigdata-jp/python_sample/blob/main/C3TR_Adapter_gguf_Free_Colab_sample.ipynb)
15
 
16
+ llama.cppを使うと、様々な量子化手法でファイルのサイズを小さくする事が出来ますが、本サンプルでは5種類のみを扱います。小さいサイズのモデルは、少ないメモリで高速に動作させることができますが、モデルの性能も低下します。4ビット(q4_0)くらいがバランスが良いと言われていますが、本サンプルコードでは特定の文章を全モデルで翻訳し、どのモデルが貴方の作業に適切かを確認できるようにしたものです。
17
+ Although llama.cpp can be used to reduce the size of the file with various quantization methods, this sample deals with only five types. Smaller models can run faster with less memory, but also reduce the performance of the models. 4 bits (q4_0) is said to be a good balance, but this sample code translates a particular sentence with all the models so that you can see which model is appropriate for your work.
18
+
19
 
20
  - C3TR-Adapter.Q4_0.gguf 5.01 GB
21
  - C3TR-Adapter.Q4_1.gguf 5.5 GB
 
28
  - 温度(--temp): この値を下げると、モデルがより確信度の高い(つまり、より一般的な)単語を選択する傾向が強くなります。
29
  - トップP(--top_p): この値をさらに低く設定することで、モデルが考慮する単語の範囲を狭め、より一貫性のあるテキストを生成するようになります。
30
  - 生成する単語数(-n): この値を減らすことで、モデルが生成するテキストの長さを短くし、不要な追加テキストの生成を防ぐことができます。-1 = 無限大、-2 = 文脈が満たされるまで。
31
+
32
+ 以下はllama.cppの作者(ggerganov)による推奨パラメーターです
33
+
34
+ -e (改行\nをエスケープ)
35
+ --temp 0 (最も確率の高いトークンのみを選択)
36
+ --repeat-penalty 1.0 (繰り返しペナルティをオフ)
37
+ --no-penalize-nl - (改行の連続にペナルティをあたえない)
38
 
39
  - Temperature (--temp): Lowering this value will make the model more likely to select more confident (i.e., more common) words.
40
  - Top P (--top_p): Setting this value even lower will narrow the range of words considered by the model and produce more consistent text.
41
  - Number of words to generate (-n): Reducing this value will shorten the length of text generated by the model and prevent the generation of unnecessary additional text. -1 = infinity(default), -2 = until context filled.
42
 
43
+ The following are the recommended parameters by the author of llama.cpp(ggerganov)
44
+ - -e (escape newlines (\n))
45
+ - --temp 0(pick most probable tokens)
46
+ - --repeat-penalty 1.0(disable repetition penalty (it's never a good idea to have this with instruction tuned models)
47
+ - --no-penalize-nl(do not penalize repeating newlines)
48