eson commited on
Commit
a4208a2
1 Parent(s): e411220

add compression_rate details

Browse files
This view is limited to 50 files because it contains too many changes.   See raw diff
Files changed (50) hide show
  1. app.py +9 -6
  2. compression_app.py +2 -4
  3. playground_app.py +7 -5
  4. stats/character_stats.json +19 -0
  5. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json +104 -0
  6. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json +194 -0
  7. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json +123 -0
  8. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json +114 -0
  9. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json +106 -0
  10. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json +106 -0
  11. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json +103 -0
  12. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json +111 -0
  13. stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json +163 -0
  14. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json +104 -0
  15. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json +194 -0
  16. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json +123 -0
  17. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json +114 -0
  18. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json +106 -0
  19. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json +106 -0
  20. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json +103 -0
  21. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json +111 -0
  22. stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json +163 -0
  23. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json +177 -0
  24. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json +103 -0
  25. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json +102 -0
  26. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json +106 -0
  27. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json +180 -0
  28. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json +106 -0
  29. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json +109 -0
  30. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json +255 -0
  31. stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json +157 -0
  32. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json +177 -0
  33. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json +103 -0
  34. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json +102 -0
  35. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json +106 -0
  36. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json +180 -0
  37. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json +106 -0
  38. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json +109 -0
  39. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json +255 -0
  40. stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json +157 -0
  41. stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json +103 -0
  42. stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json +102 -0
  43. stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json +103 -0
  44. stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json +106 -0
  45. stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json +105 -0
  46. stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json +102 -0
  47. stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json +103 -0
  48. stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json +106 -0
  49. stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json +155 -0
  50. stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json +104 -0
app.py CHANGED
@@ -16,6 +16,9 @@ title = '<div align="center">Tokenizer Arena ⚔️</div>'
16
  interface_list = [playground_tab, compression_tab, character_tab]
17
  tab_names = [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"]
18
 
 
 
 
19
  with gr.Blocks(css="css/style.css", js="js/onload.js") as demo:
20
  gr.HTML(
21
  f"<h1 style='text-align: center; margin-bottom: 1rem'>{title}</h1>"
@@ -25,12 +28,12 @@ with gr.Blocks(css="css/style.css", js="js/onload.js") as demo:
25
  with gr.Tab(label=tab_name):
26
  interface.render()
27
 
28
- model_name = gr.Textbox(
29
- placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...",
30
- show_label=False,
31
- )
32
-
33
- model_name.submit()
34
 
35
  # demo.load(js=open("js/onload.js", "r", encoding="utf-8").read())
36
 
 
16
  interface_list = [playground_tab, compression_tab, character_tab]
17
  tab_names = [" ⚔️ Playground", "🏆 Compression Leaderboard", "📊 Character Statistics"]
18
 
19
+ # interface_list = [compression_tab, character_tab]
20
+ # tab_names = ["🏆 Compression Leaderboard", "📊 Character Statistics"]
21
+
22
  with gr.Blocks(css="css/style.css", js="js/onload.js") as demo:
23
  gr.HTML(
24
  f"<h1 style='text-align: center; margin-bottom: 1rem'>{title}</h1>"
 
28
  with gr.Tab(label=tab_name):
29
  interface.render()
30
 
31
+ # model_name = gr.Textbox(
32
+ # placeholder="🔍 Add tokenizer from Hugging Face (e.g. Xenova/gpt-4o) and press ENTER...",
33
+ # show_label=False,
34
+ # )
35
+ #
36
+ # model_name.submit()
37
 
38
  # demo.load(js=open("js/onload.js", "r", encoding="utf-8").read())
39
 
compression_app.py CHANGED
@@ -37,9 +37,9 @@ The encoding and decoding process can be formulated as
37
  - **Lossless** <br>
38
  Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`.
39
 
40
- - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-casedcc100.zh-Hans.diff.json).
41
  - Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338),
42
- which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.jsonn) to the reconstructed text.
43
 
44
  - **Compression Rate** <br>
45
  There are mainly two types of metric to represent the `input_text`:
@@ -49,8 +49,6 @@ There are mainly two types of metric to represent the `input_text`:
49
  To evaluate compression rate, simple metrics can be "how many bytes per token" or "how many chars per token". <br>
50
  In this leaderboard, we adopt more frequently used metric: "how many billion tokens per gigabytes corpus" and "how many chars
51
  per token", i.e. `b_tokens/g_bytes` and `char/token`.
52
-
53
-
54
  💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions)
55
  """
56
 
 
37
  - **Lossless** <br>
38
  Lossless tokenization preserves the exact original text, i.e. `decoded_text = input_text`.
39
 
40
+ - Most lossy tokenizers get many out-of-vocabulary tokens. 👉 Check the [oov of bert-base-uncased](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/google-bert.bert-base-cased%20@%20cc100.zh-Hans.diff.json).
41
  - Some other tokenizers have no oov, but still be lossy due to text normalization. For example qwen performs [unicode normalization](https://github.com/huggingface/transformers/blob/v4.42.3/src/transformers/models/qwen2/tokenization_qwen2.py#L338),
42
+ which may bring some [slight difference](https://huggingface.co/spaces/eson/tokenizer-arena/raw/main/stats/compression_rate/Qwen.Qwen1.5-1.8B%20@%20cc100.ja.diff.json) to the reconstructed text.
43
 
44
  - **Compression Rate** <br>
45
  There are mainly two types of metric to represent the `input_text`:
 
49
  To evaluate compression rate, simple metrics can be "how many bytes per token" or "how many chars per token". <br>
50
  In this leaderboard, we adopt more frequently used metric: "how many billion tokens per gigabytes corpus" and "how many chars
51
  per token", i.e. `b_tokens/g_bytes` and `char/token`.
 
 
52
  💬 [Discussions is Welcome](https://huggingface.co/spaces/eson/tokenizer-arena/discussions)
53
  """
54
 
playground_app.py CHANGED
@@ -5,10 +5,10 @@
5
  import gradio as gr
6
  from vocab import tokenizer_factory
7
  from playground_examples import example_types, example_fn
8
- from playground_util import tokenize, tokenize_pair, basic_count, get_overlap_token_size, on_load
9
-
10
-
11
-
12
 
13
  get_window_url_params = """
14
  function(url_params) {
@@ -39,7 +39,7 @@ with gr.Blocks() as demo:
39
  elem_classes="example-style"
40
  )
41
  user_input = gr.Textbox(
42
- # value=default_user_input,
43
  label="Input Text",
44
  lines=5,
45
  show_label=False,
@@ -77,6 +77,7 @@ with gr.Blocks() as demo:
77
  tokenizer_name_1 = gr.Dropdown(
78
  all_tokenizer_name,
79
  label="Tokenizer 1",
 
80
  )
81
  with gr.Group():
82
  with gr.Row():
@@ -120,6 +121,7 @@ with gr.Blocks() as demo:
120
  tokenizer_name_2 = gr.Dropdown(
121
  all_tokenizer_name,
122
  label="Tokenizer 2",
 
123
  )
124
  with gr.Group():
125
  with gr.Row():
 
5
  import gradio as gr
6
  from vocab import tokenizer_factory
7
  from playground_examples import example_types, example_fn
8
+ from playground_util import (tokenize,
9
+ tokenize_pair, basic_count,
10
+ get_overlap_token_size, on_load,
11
+ default_user_input, default_tokenizer_name_1, default_tokenizer_name_2)
12
 
13
  get_window_url_params = """
14
  function(url_params) {
 
39
  elem_classes="example-style"
40
  )
41
  user_input = gr.Textbox(
42
+ value=default_user_input,
43
  label="Input Text",
44
  lines=5,
45
  show_label=False,
 
77
  tokenizer_name_1 = gr.Dropdown(
78
  all_tokenizer_name,
79
  label="Tokenizer 1",
80
+ value=default_tokenizer_name_1,
81
  )
82
  with gr.Group():
83
  with gr.Row():
 
121
  tokenizer_name_2 = gr.Dropdown(
122
  all_tokenizer_name,
123
  label="Tokenizer 2",
124
+ value=default_tokenizer_name_2
125
  )
126
  with gr.Group():
127
  with gr.Row():
stats/character_stats.json CHANGED
@@ -1784,5 +1784,24 @@
1784
  "len(ja-kana)": "1,1,3",
1785
  "num(ko)": 0,
1786
  "len(ko)": "-"
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1787
  }
1788
  }
 
1784
  "len(ja-kana)": "1,1,3",
1785
  "num(ko)": 0,
1786
  "len(ko)": "-"
1787
+ },
1788
+ "rinna/bilingual-gpt-neox-4b": {
1789
+ "tokenizer": "<a target=\"_blank\" href=\"https://huggingface.co/rinna/bilingual-gpt-neox-4b\" style=\"color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;\">bilingual-gpt-neox-4b</a>",
1790
+ "organization": "ABEJA",
1791
+ "vocab_size": 65536,
1792
+ "num(digit)": 266,
1793
+ "len(digit)": "1,6,6",
1794
+ "num(space)": 3,
1795
+ "len(space)": "1,1,1",
1796
+ "num(ar)": 108,
1797
+ "len(ar)": "1,1,4",
1798
+ "num(zh)": 30158,
1799
+ "len(zh)": "1,2,16",
1800
+ "num(ja)": 40298,
1801
+ "len(ja)": "1,3,16",
1802
+ "num(ja-kana)": 21366,
1803
+ "len(ja-kana)": "1,4,16",
1804
+ "num(ko)": 384,
1805
+ "len(ko)": "1,1,1"
1806
  }
1807
  }
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ar.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
14
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
15
+ "diff": [
16
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
17
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
25
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
26
+ "diff": [
27
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
35
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
36
+ "diff": [
37
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
45
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة ��ي البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
46
+ "diff": [
47
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
55
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
56
+ "diff": [
57
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
58
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
66
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
67
+ "diff": [
68
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
76
+ "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
77
+ "diff": [
78
+ "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
79
+ ],
80
+ "n_oov_chars": 4,
81
+ "oov_ratio": 0.07017543859649122,
82
+ "oov_charset": "[\"C\", \"N\", \"B\"]"
83
+ },
84
+ {
85
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
86
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
87
+ "diff": [
88
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
96
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
97
+ "diff": [
98
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.de.diff.json ADDED
@@ -0,0 +1,194 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
4
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.",
5
+ "diff": [
6
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
7
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
8
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
9
+ "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'",
10
+ "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'",
11
+ "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'",
12
+ "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'",
13
+ "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'",
14
+ "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'",
15
+ "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'",
16
+ "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
17
+ "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'",
18
+ "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
19
+ "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'",
20
+ "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'"
21
+ ],
22
+ "n_oov_chars": 20,
23
+ "oov_ratio": 0.07142857142857142,
24
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]"
25
+ },
26
+ {
27
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
28
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.",
29
+ "diff": [
30
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
31
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
32
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
33
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
34
+ "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'",
35
+ "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'"
36
+ ],
37
+ "n_oov_chars": 6,
38
+ "oov_ratio": 0.0759493670886076,
39
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]"
40
+ },
41
+ {
42
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
43
+ "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de",
44
+ "diff": [
45
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
46
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
47
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
48
+ "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'",
49
+ "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'",
50
+ "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'"
51
+ ],
52
+ "n_oov_chars": 6,
53
+ "oov_ratio": 0.05825242718446602,
54
+ "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]"
55
+ },
56
+ {
57
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
58
+ "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.",
59
+ "diff": [
60
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
61
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
62
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
63
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'"
64
+ ],
65
+ "n_oov_chars": 4,
66
+ "oov_ratio": 0.08,
67
+ "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]"
68
+ },
69
+ {
70
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
71
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.",
72
+ "diff": [
73
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
74
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
75
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
76
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
77
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
78
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
79
+ "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'",
80
+ "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'",
81
+ "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'",
82
+ "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'",
83
+ "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'",
84
+ "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'",
85
+ "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'",
86
+ "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'",
87
+ "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'",
88
+ "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'",
89
+ "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
90
+ "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'",
91
+ "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'",
92
+ "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'"
93
+ ],
94
+ "n_oov_chars": 33,
95
+ "oov_ratio": 0.048672566371681415,
96
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]"
97
+ },
98
+ {
99
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
100
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.",
101
+ "diff": [
102
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
103
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
104
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
105
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
106
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
107
+ "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'",
108
+ "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'",
109
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
110
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
111
+ "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'",
112
+ "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'",
113
+ "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'",
114
+ "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'"
115
+ ],
116
+ "n_oov_chars": 18,
117
+ "oov_ratio": 0.04072398190045249,
118
+ "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]"
119
+ },
120
+ {
121
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
122
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.",
123
+ "diff": [
124
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
125
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
126
+ "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''",
127
+ "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'",
128
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
129
+ "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'",
130
+ "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'",
131
+ "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'",
132
+ "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'",
133
+ "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'",
134
+ "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
135
+ "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'",
136
+ "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'"
137
+ ],
138
+ "n_oov_chars": 21,
139
+ "oov_ratio": 0.043478260869565216,
140
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]"
141
+ },
142
+ {
143
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
144
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
145
+ "diff": [
146
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
147
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
148
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
149
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
150
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
151
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
152
+ ],
153
+ "n_oov_chars": 6,
154
+ "oov_ratio": 0.07407407407407407,
155
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
156
+ },
157
+ {
158
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
159
+ "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;",
160
+ "diff": [
161
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
162
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
163
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
164
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
165
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
166
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
167
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
168
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'"
169
+ ],
170
+ "n_oov_chars": 8,
171
+ "oov_ratio": 0.042328042328042326,
172
+ "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]"
173
+ },
174
+ {
175
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
176
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);",
177
+ "diff": [
178
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
179
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
180
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
181
+ "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'",
182
+ "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'",
183
+ "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'",
184
+ "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'",
185
+ "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'",
186
+ "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'",
187
+ "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'",
188
+ "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'"
189
+ ],
190
+ "n_oov_chars": 11,
191
+ "oov_ratio": 0.05789473684210526,
192
+ "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]"
193
+ }
194
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.en.diff.json ADDED
@@ -0,0 +1,123 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
4
+ "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.",
5
+ "diff": [
6
+ "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'",
7
+ "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'",
8
+ "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'",
9
+ "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'"
10
+ ],
11
+ "n_oov_chars": 8,
12
+ "oov_ratio": 0.03076923076923077,
13
+ "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]"
14
+ },
15
+ {
16
+ "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
17
+ "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.",
18
+ "diff": [
19
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
20
+ "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'",
21
+ "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'",
22
+ "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'",
23
+ "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'"
24
+ ],
25
+ "n_oov_chars": 7,
26
+ "oov_ratio": 0.034482758620689655,
27
+ "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]"
28
+ },
29
+ {
30
+ "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
31
+ "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
32
+ "diff": [
33
+ "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'",
34
+ "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'",
35
+ "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'",
36
+ "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'"
37
+ ],
38
+ "n_oov_chars": 5,
39
+ "oov_ratio": 0.012853470437017995,
40
+ "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]"
41
+ },
42
+ {
43
+ "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
44
+ "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
45
+ "diff": [
46
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
47
+ "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'",
48
+ "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'"
49
+ ],
50
+ "n_oov_chars": 3,
51
+ "oov_ratio": 0.016666666666666666,
52
+ "oov_charset": "[\"S\", \"V\", \"I\"]"
53
+ },
54
+ {
55
+ "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
56
+ "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
57
+ "diff": [
58
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
59
+ "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'"
60
+ ],
61
+ "n_oov_chars": 2,
62
+ "oov_ratio": 0.013245033112582781,
63
+ "oov_charset": "[\"A\", \"F\"]"
64
+ },
65
+ {
66
+ "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
67
+ "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.",
68
+ "diff": [
69
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
70
+ "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'",
71
+ "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'"
72
+ ],
73
+ "n_oov_chars": 3,
74
+ "oov_ratio": 0.024390243902439025,
75
+ "oov_charset": "[\"W\", \"S\", \"F\"]"
76
+ },
77
+ {
78
+ "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
79
+ "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
80
+ "diff": [
81
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
82
+ "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'"
83
+ ],
84
+ "n_oov_chars": 2,
85
+ "oov_ratio": 0.008438818565400843,
86
+ "oov_charset": "[\"S\", \"Y\"]"
87
+ },
88
+ {
89
+ "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
90
+ "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:",
91
+ "diff": [
92
+ "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '",
93
+ "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'",
94
+ "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'",
95
+ "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'",
96
+ "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'"
97
+ ],
98
+ "n_oov_chars": 6,
99
+ "oov_ratio": 0.02912621359223301,
100
+ "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]"
101
+ },
102
+ {
103
+ "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
104
+ "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111",
105
+ "diff": [
106
+ "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'",
107
+ "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'"
108
+ ],
109
+ "n_oov_chars": 7,
110
+ "oov_ratio": 0.05785123966942149,
111
+ "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]"
112
+ },
113
+ {
114
+ "text": "Watch for signs of dehydration!",
115
+ "decoded_text": "watch for signs of dehydration!",
116
+ "diff": [
117
+ "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'"
118
+ ],
119
+ "n_oov_chars": 1,
120
+ "oov_ratio": 0.03225806451612903,
121
+ "oov_charset": "[\"W\"]"
122
+ }
123
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.es.diff.json ADDED
@@ -0,0 +1,114 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
4
+ "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.",
5
+ "diff": [
6
+ "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'",
7
+ "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'",
8
+ "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'",
9
+ "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'"
10
+ ],
11
+ "n_oov_chars": 6,
12
+ "oov_ratio": 0.026785714285714284,
13
+ "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]"
14
+ },
15
+ {
16
+ "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
17
+ "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.",
18
+ "diff": [
19
+ "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'"
20
+ ],
21
+ "n_oov_chars": 1,
22
+ "oov_ratio": 0.01282051282051282,
23
+ "oov_charset": "[\"H\"]"
24
+ },
25
+ {
26
+ "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
27
+ "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
28
+ "diff": [
29
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
30
+ "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'",
31
+ "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'"
32
+ ],
33
+ "n_oov_chars": 5,
34
+ "oov_ratio": 0.022222222222222223,
35
+ "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
36
+ },
37
+ {
38
+ "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
39
+ "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.",
40
+ "diff": [
41
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
42
+ "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
43
+ "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
44
+ "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
45
+ "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
46
+ ],
47
+ "n_oov_chars": 5,
48
+ "oov_ratio": 0.026881720430107527,
49
+ "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]"
50
+ },
51
+ {
52
+ "text": "1. El período de vacaciones anuales retribuidas, no sustituible",
53
+ "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible",
54
+ "diff": [
55
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
56
+ ],
57
+ "n_oov_chars": 1,
58
+ "oov_ratio": 0.015873015873015872,
59
+ "oov_charset": "[\"E\"]"
60
+ },
61
+ {
62
+ "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
63
+ "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada",
64
+ "diff": [
65
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
66
+ "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'"
67
+ ],
68
+ "n_oov_chars": 2,
69
+ "oov_ratio": 0.031746031746031744,
70
+ "oov_charset": "[\"A\", \"L\"]"
71
+ },
72
+ {
73
+ "text": "2. El período o períodos de su disfrute se fijará de común",
74
+ "decoded_text": "2. el período o períodos de su disfrute se fijará de común",
75
+ "diff": [
76
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
77
+ ],
78
+ "n_oov_chars": 1,
79
+ "oov_ratio": 0.017241379310344827,
80
+ "oov_charset": "[\"E\"]"
81
+ },
82
+ {
83
+ "text": "con lo establecido en su caso en los Convenios Colectivos",
84
+ "decoded_text": "con lo establecido en su caso en los convenios colectivos",
85
+ "diff": [
86
+ "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
87
+ "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
88
+ ],
89
+ "n_oov_chars": 2,
90
+ "oov_ratio": 0.03508771929824561,
91
+ "oov_charset": "[\"C\"]"
92
+ },
93
+ {
94
+ "text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
95
+ "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente",
96
+ "diff": [
97
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.015151515151515152,
101
+ "oov_charset": "[\"E\"]"
102
+ },
103
+ {
104
+ "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican",
105
+ "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican",
106
+ "diff": [
107
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
108
+ "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'"
109
+ ],
110
+ "n_oov_chars": 2,
111
+ "oov_ratio": 0.03333333333333333,
112
+ "oov_charset": "[\"A\", \"L\"]"
113
+ }
114
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fa.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "آشپزخانه کوچک من: February 2012",
4
+ "decoded_text": "آشپزخانه کوچک من: february 2012",
5
+ "diff": [
6
+ "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.03225806451612903,
10
+ "oov_charset": "[\"F\"]"
11
+ },
12
+ {
13
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest",
14
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest",
15
+ "diff": [
16
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
17
+ "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'",
18
+ "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'"
19
+ ],
20
+ "n_oov_chars": 3,
21
+ "oov_ratio": 0.022900763358778626,
22
+ "oov_charset": "[\"T\", \"F\", \"P\"]"
23
+ },
24
+ {
25
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
26
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
27
+ "diff": [
28
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
36
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
37
+ "diff": [
38
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
46
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
47
+ "diff": [
48
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
56
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
57
+ "diff": [
58
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
59
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
60
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
61
+ ],
62
+ "n_oov_chars": 0,
63
+ "oov_ratio": 0.0,
64
+ "oov_charset": "[]"
65
+ },
66
+ {
67
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
68
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
69
+ "diff": [
70
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
71
+ ],
72
+ "n_oov_chars": 0,
73
+ "oov_ratio": 0.0,
74
+ "oov_charset": "[]"
75
+ },
76
+ {
77
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
78
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
79
+ "diff": [
80
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
81
+ ],
82
+ "n_oov_chars": 0,
83
+ "oov_ratio": 0.0,
84
+ "oov_charset": "[]"
85
+ },
86
+ {
87
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
88
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
89
+ "diff": [
90
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
98
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
99
+ "diff": [
100
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ }
106
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.fr.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
4
+ "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
5
+ "diff": [
6
+ "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.007751937984496124,
10
+ "oov_charset": "[\"B\"]"
11
+ },
12
+ {
13
+ "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
14
+ "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
15
+ "diff": [
16
+ "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.011764705882352941,
20
+ "oov_charset": "[\"V\"]"
21
+ },
22
+ {
23
+ "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
24
+ "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
25
+ "diff": [
26
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.014705882352941176,
30
+ "oov_charset": "[\"E\"]"
31
+ },
32
+ {
33
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
34
+ "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
35
+ "diff": [
36
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
37
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.004098360655737705,
41
+ "oov_charset": "[\"J\"]"
42
+ },
43
+ {
44
+ "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
45
+ "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
46
+ "diff": [
47
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
48
+ "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'"
49
+ ],
50
+ "n_oov_chars": 2,
51
+ "oov_ratio": 0.008547008547008548,
52
+ "oov_charset": "[\"J\", \"P\"]"
53
+ },
54
+ {
55
+ "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
56
+ "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
57
+ "diff": [
58
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
59
+ "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'"
60
+ ],
61
+ "n_oov_chars": 2,
62
+ "oov_ratio": 0.010416666666666666,
63
+ "oov_charset": "[\"J\", \"E\"]"
64
+ },
65
+ {
66
+ "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée",
67
+ "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée",
68
+ "diff": [
69
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
70
+ "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'"
71
+ ],
72
+ "n_oov_chars": 2,
73
+ "oov_ratio": 0.012738853503184714,
74
+ "oov_charset": "[\"J\", \"I\"]"
75
+ },
76
+ {
77
+ "text": "- Je dois être mentalement instable, par moments",
78
+ "decoded_text": "- je dois être mentalement instable, par moments",
79
+ "diff": [
80
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
81
+ ],
82
+ "n_oov_chars": 1,
83
+ "oov_ratio": 0.020833333333333332,
84
+ "oov_charset": "[\"J\"]"
85
+ },
86
+ {
87
+ "text": "- Je n'envoie que très peu de sms et n'appelle personne",
88
+ "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne",
89
+ "diff": [
90
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
91
+ ],
92
+ "n_oov_chars": 1,
93
+ "oov_ratio": 0.01818181818181818,
94
+ "oov_charset": "[\"J\"]"
95
+ },
96
+ {
97
+ "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
98
+ "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
99
+ "diff": [
100
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
101
+ ],
102
+ "n_oov_chars": 1,
103
+ "oov_ratio": 0.006711409395973154,
104
+ "oov_charset": "[\"J\"]"
105
+ }
106
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ja.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
4
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
5
+ "diff": [
6
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.02702702702702703,
10
+ "oov_charset": "[\"!\"]"
11
+ },
12
+ {
13
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
14
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
15
+ "diff": [
16
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.02040816326530612,
20
+ "oov_charset": "[\"1\"]"
21
+ },
22
+ {
23
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
24
+ "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
25
+ "diff": [
26
+ "replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
27
+ "replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
28
+ ],
29
+ "n_oov_chars": 2,
30
+ "oov_ratio": 0.03125,
31
+ "oov_charset": "[\"5\", \"1\"]"
32
+ },
33
+ {
34
+ "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
35
+ "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
36
+ "diff": [
37
+ "replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
38
+ ],
39
+ "n_oov_chars": 2,
40
+ "oov_ratio": 0.024096385542168676,
41
+ "oov_charset": "[\"…\"]"
42
+ },
43
+ {
44
+ "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
45
+ "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
46
+ "diff": [
47
+ "replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
48
+ ],
49
+ "n_oov_chars": 2,
50
+ "oov_ratio": 0.029411764705882353,
51
+ "oov_charset": "[\"…\"]"
52
+ },
53
+ {
54
+ "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
55
+ "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
56
+ "diff": [
57
+ "replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.015384615384615385,
61
+ "oov_charset": "[\"!\"]"
62
+ },
63
+ {
64
+ "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
65
+ "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
66
+ "diff": [
67
+ "replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.029411764705882353,
71
+ "oov_charset": "[\"1\"]"
72
+ },
73
+ {
74
+ "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
75
+ "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
76
+ "diff": [
77
+ "replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
78
+ ],
79
+ "n_oov_chars": 1,
80
+ "oov_ratio": 0.023809523809523808,
81
+ "oov_charset": "[\"?\"]"
82
+ },
83
+ {
84
+ "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
85
+ "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
86
+ "diff": [
87
+ "replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
88
+ ],
89
+ "n_oov_chars": 1,
90
+ "oov_ratio": 0.024390243902439025,
91
+ "oov_charset": "[\"1\"]"
92
+ },
93
+ {
94
+ "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
95
+ "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
96
+ "diff": [
97
+ "replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.015384615384615385,
101
+ "oov_charset": "[\"?\"]"
102
+ }
103
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.ko.diff.json ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "+ HOME > 라이브스코어",
4
+ "decoded_text": "+ home > 라이브스코어",
5
+ "diff": [
6
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'"
7
+ ],
8
+ "n_oov_chars": 4,
9
+ "oov_ratio": 0.26666666666666666,
10
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]"
11
+ },
12
+ {
13
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
14
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
15
+ "diff": [
16
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
17
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
25
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
26
+ "diff": [
27
+ "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'",
28
+ "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'",
29
+ "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'",
30
+ "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'",
31
+ "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'",
32
+ "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'"
33
+ ],
34
+ "n_oov_chars": 6,
35
+ "oov_ratio": 0.05405405405405406,
36
+ "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]"
37
+ },
38
+ {
39
+ "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.",
40
+ "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.",
41
+ "diff": [
42
+ "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'"
43
+ ],
44
+ "n_oov_chars": 3,
45
+ "oov_ratio": 0.03,
46
+ "oov_charset": "[\"E\", \"P\", \"L\"]"
47
+ },
48
+ {
49
+ "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
50
+ "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
51
+ "diff": [
52
+ "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'"
53
+ ],
54
+ "n_oov_chars": 1,
55
+ "oov_ratio": 0.009345794392523364,
56
+ "oov_charset": "[\"N\"]"
57
+ },
58
+ {
59
+ "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
60
+ "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
61
+ "diff": [
62
+ "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'"
63
+ ],
64
+ "n_oov_chars": 5,
65
+ "oov_ratio": 0.04807692307692308,
66
+ "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]"
67
+ },
68
+ {
69
+ "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
70
+ "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
71
+ "diff": [
72
+ "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'"
73
+ ],
74
+ "n_oov_chars": 2,
75
+ "oov_ratio": 0.04878048780487805,
76
+ "oov_charset": "[\"A\", \"G\"]"
77
+ },
78
+ {
79
+ "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
80
+ "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
81
+ "diff": [
82
+ "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'"
83
+ ],
84
+ "n_oov_chars": 2,
85
+ "oov_ratio": 0.021739130434782608,
86
+ "oov_charset": "[\"P\", \"O\"]"
87
+ },
88
+ {
89
+ "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.",
90
+ "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.",
91
+ "diff": [
92
+ "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'",
93
+ "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'"
94
+ ],
95
+ "n_oov_chars": 4,
96
+ "oov_ratio": 0.05128205128205128,
97
+ "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]"
98
+ },
99
+ {
100
+ "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
101
+ "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
102
+ "diff": [
103
+ "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'",
104
+ "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'",
105
+ "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'"
106
+ ],
107
+ "n_oov_chars": 3,
108
+ "oov_ratio": 0.024193548387096774,
109
+ "oov_charset": "[\"A\", \"C\", \"D\"]"
110
+ }
111
+ ]
stats/compression_rate/ClassCat.gpt2-base-french @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,163 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
4
+ "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
5
+ "diff": [
6
+ "replace text[57:58] --> decoded_text[57:58] ',' --> ','",
7
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
8
+ "replace text[113:114] --> decoded_text[113:114] ',' --> ','",
9
+ "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'",
10
+ "replace text[136:137] --> decoded_text[136:137] ',' --> ','",
11
+ "replace text[148:149] --> decoded_text[148:149] ',' --> ','",
12
+ "replace text[168:169] --> decoded_text[168:169] ',' --> ','",
13
+ "replace text[183:184] --> decoded_text[183:184] ',' --> ','",
14
+ "replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
15
+ ],
16
+ "n_oov_chars": 9,
17
+ "oov_ratio": 0.04205607476635514,
18
+ "oov_charset": "[\",\", \"S\", \":\"]"
19
+ },
20
+ {
21
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
22
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
23
+ "diff": [
24
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
25
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
26
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
27
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
28
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
29
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
30
+ ],
31
+ "n_oov_chars": 6,
32
+ "oov_ratio": 0.04838709677419355,
33
+ "oov_charset": "[\",\", \"3\", \"5\"]"
34
+ },
35
+ {
36
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
37
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
38
+ "diff": [
39
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
40
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
41
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
42
+ ],
43
+ "n_oov_chars": 3,
44
+ "oov_ratio": 0.0375,
45
+ "oov_charset": "[\",\"]"
46
+ },
47
+ {
48
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
49
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
50
+ "diff": [
51
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
52
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
53
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
54
+ ],
55
+ "n_oov_chars": 3,
56
+ "oov_ratio": 0.038461538461538464,
57
+ "oov_charset": "[\"��\"]"
58
+ },
59
+ {
60
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
61
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。",
62
+ "diff": [
63
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
64
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
65
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
66
+ "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'",
67
+ "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'",
68
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
69
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
70
+ "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'",
71
+ "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'",
72
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
73
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
74
+ "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'",
75
+ "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'",
76
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
77
+ "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'",
78
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
79
+ ],
80
+ "n_oov_chars": 16,
81
+ "oov_ratio": 0.07960199004975124,
82
+ "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]"
83
+ },
84
+ {
85
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
86
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
87
+ "diff": [
88
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
89
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
90
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
91
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
92
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
93
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
94
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
95
+ ],
96
+ "n_oov_chars": 7,
97
+ "oov_ratio": 0.08860759493670886,
98
+ "oov_charset": "[\",\"]"
99
+ },
100
+ {
101
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
102
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
103
+ "diff": [
104
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
105
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
106
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
107
+ ],
108
+ "n_oov_chars": 3,
109
+ "oov_ratio": 0.02608695652173913,
110
+ "oov_charset": "[\",\"]"
111
+ },
112
+ {
113
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
114
+ "decoded_text": "���腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
115
+ "diff": [
116
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
117
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
118
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
119
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
120
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
121
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
122
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
123
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
124
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
125
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
126
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
127
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
128
+ ],
129
+ "n_oov_chars": 12,
130
+ "oov_ratio": 0.08759124087591241,
131
+ "oov_charset": "[\",\", \":\", \"?\"]"
132
+ },
133
+ {
134
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
135
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
136
+ "diff": [
137
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
138
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
139
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
140
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
141
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
142
+ ],
143
+ "n_oov_chars": 5,
144
+ "oov_ratio": 0.05747126436781609,
145
+ "oov_charset": "[\",\"]"
146
+ },
147
+ {
148
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
149
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
150
+ "diff": [
151
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
152
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
153
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
154
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
155
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
156
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
157
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
158
+ ],
159
+ "n_oov_chars": 7,
160
+ "oov_ratio": 0.05303030303030303,
161
+ "oov_charset": "[\",\"]"
162
+ }
163
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ar.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
14
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
15
+ "diff": [
16
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
17
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
25
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
26
+ "diff": [
27
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
35
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
36
+ "diff": [
37
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
45
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة ��ي البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
46
+ "diff": [
47
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
55
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
56
+ "diff": [
57
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
58
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
66
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
67
+ "diff": [
68
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية CNBC",
76
+ "decoded_text": "البنوك الإسلامية في المملكة العربية السعودية _ عربية cnbc",
77
+ "diff": [
78
+ "replace text[53:57] --> decoded_text[53:57] 'CNBC' --> 'cnbc'"
79
+ ],
80
+ "n_oov_chars": 4,
81
+ "oov_ratio": 0.07017543859649122,
82
+ "oov_charset": "[\"C\", \"N\", \"B\"]"
83
+ },
84
+ {
85
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
86
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
87
+ "diff": [
88
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
96
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
97
+ "diff": [
98
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.de.diff.json ADDED
@@ -0,0 +1,194 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
4
+ "decoded_text": "bereits eine woche vorher am samstag, 2. dezember ist die „püngel-weihnacht“ in siegburg-kaldauen um 18 uhr (einlass 17.30 uhr) im restaurant kaldauer hof zu hören. hier ist im eintrittspreis von 18,50 € ein abendessen enthalten. auch hier gibt es einen mitsingteil für die gäste.",
5
+ "diff": [
6
+ "replace text[0:14] --> decoded_text[0:14] 'Bereits eine W' --> 'bereits eine w'",
7
+ "replace text[29:30] --> decoded_text[29:30] 'S' --> 's'",
8
+ "replace text[41:42] --> decoded_text[41:42] 'D' --> 'd'",
9
+ "replace text[59:60] --> decoded_text[59:60] 'P' --> 'p'",
10
+ "replace text[66:67] --> decoded_text[66:67] 'W' --> 'w'",
11
+ "replace text[80:81] --> decoded_text[80:81] 'S' --> 's'",
12
+ "replace text[89:90] --> decoded_text[89:90] 'K' --> 'k'",
13
+ "replace text[104:105] --> decoded_text[104:105] 'U' --> 'u'",
14
+ "replace text[109:110] --> decoded_text[109:110] 'E' --> 'e'",
15
+ "replace text[123:124] --> decoded_text[123:124] 'U' --> 'u'",
16
+ "replace text[131:152] --> decoded_text[131:152] 'Restaurant Kaldauer H' --> 'restaurant kaldauer h'",
17
+ "replace text[165:178] --> decoded_text[165:178] 'Hier ist im E' --> 'hier ist im e'",
18
+ "replace text[208:231] --> decoded_text[208:231] 'Abendessen enthalten. A' --> 'abendessen enthalten. a'",
19
+ "replace text[254:255] --> decoded_text[254:255] 'M' --> 'm'",
20
+ "replace text[274:275] --> decoded_text[274:275] 'G' --> 'g'"
21
+ ],
22
+ "n_oov_chars": 20,
23
+ "oov_ratio": 0.07142857142857142,
24
+ "oov_charset": "[\"B\", \"W\", \"S\", \"D\", \"P\", \"K\", \"U\", \"E\", \"R\", \"H\", \"A\", \"M\", \"G\"]"
25
+ },
26
+ {
27
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
28
+ "decoded_text": "der chor bietet noch einen weiteren termin im rahmen der „püngel-weihnacht“ an.",
29
+ "diff": [
30
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
31
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
32
+ "replace text[36:37] --> decoded_text[36:37] 'T' --> 't'",
33
+ "replace text[46:47] --> decoded_text[46:47] 'R' --> 'r'",
34
+ "replace text[58:59] --> decoded_text[58:59] 'P' --> 'p'",
35
+ "replace text[65:66] --> decoded_text[65:66] 'W' --> 'w'"
36
+ ],
37
+ "n_oov_chars": 6,
38
+ "oov_ratio": 0.0759493670886076,
39
+ "oov_charset": "[\"D\", \"C\", \"T\", \"R\", \"P\", \"W\"]"
40
+ },
41
+ {
42
+ "text": "02683 967019. Die Karten können auch per Email bestellt werden: En-Koelsche-Weihnachtsfeier@t-online.de",
43
+ "decoded_text": "02683 967019. die karten können auch per email bestellt werden: en-koelsche-weihnachtsfeier@t-online.de",
44
+ "diff": [
45
+ "replace text[14:15] --> decoded_text[14:15] 'D' --> 'd'",
46
+ "replace text[18:19] --> decoded_text[18:19] 'K' --> 'k'",
47
+ "replace text[41:42] --> decoded_text[41:42] 'E' --> 'e'",
48
+ "replace text[64:65] --> decoded_text[64:65] 'E' --> 'e'",
49
+ "replace text[67:68] --> decoded_text[67:68] 'K' --> 'k'",
50
+ "replace text[76:77] --> decoded_text[76:77] 'W' --> 'w'"
51
+ ],
52
+ "n_oov_chars": 6,
53
+ "oov_ratio": 0.05825242718446602,
54
+ "oov_charset": "[\"D\", \"K\", \"E\", \"W\"]"
55
+ },
56
+ {
57
+ "text": "Der Chor wünscht Ihnen schon jetzt viel Vergnügen.",
58
+ "decoded_text": "der chor wünscht ihnen schon jetzt viel vergnügen.",
59
+ "diff": [
60
+ "replace text[0:1] --> decoded_text[0:1] 'D' --> 'd'",
61
+ "replace text[4:5] --> decoded_text[4:5] 'C' --> 'c'",
62
+ "replace text[17:18] --> decoded_text[17:18] 'I' --> 'i'",
63
+ "replace text[40:41] --> decoded_text[40:41] 'V' --> 'v'"
64
+ ],
65
+ "n_oov_chars": 4,
66
+ "oov_ratio": 0.08,
67
+ "oov_charset": "[\"D\", \"C\", \"I\", \"V\"]"
68
+ },
69
+ {
70
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
71
+ "decoded_text": "die verarbeitung kann auch auf elektronischem wege erfolgen. dies ist insbesondere dann der fall, wenn ein bewerber entsprechende bewerbungsunterlagen auf dem elektronischen wege, beispielsweise per e-mail oder über ein auf der internetseite befindliches webformular, an den für die verarbeitung verantwortlichen übermittelt. sollten sie über einen account in einem berufsorientierten sozialen netzwerk wie etwa xing oder linkedin verfügen, können wir die daten auch von ihrer öffentlich einsehbaren profilseite erheben. zwecke der verarbeitung und rechtsgrundlage wir verarbeiten ihre personenbezogenen daten ausschließlich zum zwecke der durchführung des bewerbungsverfahrens.",
72
+ "diff": [
73
+ "replace text[0:5] --> decoded_text[0:5] 'Die V' --> 'die v'",
74
+ "replace text[46:47] --> decoded_text[46:47] 'W' --> 'w'",
75
+ "replace text[61:93] --> decoded_text[61:93] 'Dies ist insbesondere dann der F' --> 'dies ist insbesondere dann der f'",
76
+ "replace text[107:108] --> decoded_text[107:108] 'B' --> 'b'",
77
+ "replace text[130:131] --> decoded_text[130:131] 'B' --> 'b'",
78
+ "replace text[174:175] --> decoded_text[174:175] 'W' --> 'w'",
79
+ "replace text[199:200] --> decoded_text[199:200] 'E' --> 'e'",
80
+ "replace text[201:202] --> decoded_text[201:202] 'M' --> 'm'",
81
+ "replace text[228:256] --> decoded_text[228:256] 'Internetseite befindliches W' --> 'internetseite befindliches w'",
82
+ "replace text[283:297] --> decoded_text[283:297] 'Verarbeitung V' --> 'verarbeitung v'",
83
+ "replace text[326:335] --> decoded_text[326:335] 'Sollten S' --> 'sollten s'",
84
+ "replace text[349:350] --> decoded_text[349:350] 'A' --> 'a'",
85
+ "replace text[394:395] --> decoded_text[394:395] 'N' --> 'n'",
86
+ "replace text[412:429] --> decoded_text[412:429] 'Xing oder LinkedI' --> 'xing oder linkedi'",
87
+ "replace text[456:472] --> decoded_text[456:472] 'Daten auch von I' --> 'daten auch von i'",
88
+ "replace text[500:501] --> decoded_text[500:501] 'P' --> 'p'",
89
+ "replace text[521:582] --> decoded_text[521:582] 'Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten I' --> 'zwecke der verarbeitung und rechtsgrundlage wir verarbeiten i'",
90
+ "replace text[604:605] --> decoded_text[604:605] 'D' --> 'd'",
91
+ "replace text[629:641] --> decoded_text[629:641] 'Zwecke der D' --> 'zwecke der d'",
92
+ "replace text[657:658] --> decoded_text[657:658] 'B' --> 'b'"
93
+ ],
94
+ "n_oov_chars": 33,
95
+ "oov_ratio": 0.048672566371681415,
96
+ "oov_charset": "[\"D\", \"V\", \"W\", \"F\", \"B\", \"E\", \"M\", \"I\", \"S\", \"A\", \"N\", \"X\", \"L\", \"P\", \"Z\", \"R\"]"
97
+ },
98
+ {
99
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
100
+ "decoded_text": "sofern wir mit dem bewerber einen anstellungsvertrag abschließen, werden die übermittelten daten zum zwecke der abwicklung des beschäftigungsverhältnisses unter beachtung der gesetzlichen vorschriften gespeichert. ansonsten werden die personenbezogenen daten sechs monate nach beendigung des bewerbungsverfahrens gelöscht, sofern einer löschung keine sonstigen berechtigten interessen des für die verarbeitung verantwortlichen entgegenstehen.",
101
+ "diff": [
102
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
103
+ "replace text[19:35] --> decoded_text[19:35] 'Bewerber einen A' --> 'bewerber einen a'",
104
+ "replace text[91:92] --> decoded_text[91:92] 'D' --> 'd'",
105
+ "replace text[101:102] --> decoded_text[101:102] 'Z' --> 'z'",
106
+ "replace text[112:113] --> decoded_text[112:113] 'A' --> 'a'",
107
+ "replace text[127:128] --> decoded_text[127:128] 'B' --> 'b'",
108
+ "replace text[161:162] --> decoded_text[161:162] 'B' --> 'b'",
109
+ "replace text[188:189] --> decoded_text[188:189] 'V' --> 'v'",
110
+ "replace text[214:215] --> decoded_text[214:215] 'A' --> 'a'",
111
+ "replace text[253:293] --> decoded_text[253:293] 'Daten sechs Monate nach Beendigung des B' --> 'daten sechs monate nach beendigung des b'",
112
+ "replace text[336:337] --> decoded_text[336:337] 'L' --> 'l'",
113
+ "replace text[374:375] --> decoded_text[374:375] 'I' --> 'i'",
114
+ "replace text[397:411] --> decoded_text[397:411] 'Verarbeitung V' --> 'verarbeitung v'"
115
+ ],
116
+ "n_oov_chars": 18,
117
+ "oov_ratio": 0.04072398190045249,
118
+ "oov_charset": "[\"S\", \"B\", \"A\", \"D\", \"Z\", \"V\", \"M\", \"L\", \"I\"]"
119
+ },
120
+ {
121
+ "text": "Innerhalb unseres Hauses erhalten diejenigen internen Stellen bzw. Organisationseinheiten Ihre Daten, die diese zur Erfüllung unserer vertraglichen und gesetzlichen Pflichten (wie Führungskräfte und Fachverantwortliche, die einen neuen Mitarbeiter suchen oder an der Entscheidung über die Stellenbesetzung mitwirken, Buchhaltung, Betriebsarzt, Arbeitssicherheit, ggf. Mitarbeitervertretung usw.) oder im Rahmen der Bearbeitung und Umsetzung unseres berechtigten Interesses benötigen.",
122
+ "decoded_text": "innerhalb unseres hauses erhalten diejenigen internen stellen bzw. organisationseinheiten ihre daten, die diese zur erfüllung unserer vertraglichen und gesetzlichen pflichten (wie führungskräfte und fachverantwortliche, die einen neuen mitarbeiter suchen oder an der entscheidung über die stellenbesetzung mitwirken, buchhaltung, betriebsarzt, arbeitssicherheit, ggf. mitarbeitervertretung usw.) oder im rahmen der bearbeitung und umsetzung unseres berechtigten interesses benötigen.",
123
+ "diff": [
124
+ "replace text[0:19] --> decoded_text[0:19] 'Innerhalb unseres H' --> 'innerhalb unseres h'",
125
+ "replace text[54:55] --> decoded_text[54:55] 'S' --> 's'",
126
+ "delete text[67:77] --> decoded_text[67:67] 'Organisati' --> ''",
127
+ "replace text[78:117] --> decoded_text[68:117] 'nseinheiten Ihre Daten, die diese zur E' --> 'rganisationseinheiten ihre daten, die diese zur e'",
128
+ "replace text[165:166] --> decoded_text[165:166] 'P' --> 'p'",
129
+ "replace text[180:181] --> decoded_text[180:181] 'F' --> 'f'",
130
+ "replace text[199:200] --> decoded_text[199:200] 'F' --> 'f'",
131
+ "replace text[236:237] --> decoded_text[236:237] 'M' --> 'm'",
132
+ "replace text[267:268] --> decoded_text[267:268] 'E' --> 'e'",
133
+ "replace text[289:290] --> decoded_text[289:290] 'S' --> 's'",
134
+ "replace text[317:345] --> decoded_text[317:345] 'Buchhaltung, Betriebsarzt, A' --> 'buchhaltung, betriebsarzt, a'",
135
+ "replace text[368:369] --> decoded_text[368:369] 'M' --> 'm'",
136
+ "replace text[404:463] --> decoded_text[404:463] 'Rahmen der Bearbeitung und Umsetzung unseres berechtigten I' --> 'rahmen der bearbeitung und umsetzung unseres berechtigten i'"
137
+ ],
138
+ "n_oov_chars": 21,
139
+ "oov_ratio": 0.043478260869565216,
140
+ "oov_charset": "[\"I\", \"H\", \"S\", \"O\", \"D\", \"E\", \"P\", \"F\", \"M\", \"B\", \"A\", \"R\", \"U\"]"
141
+ },
142
+ {
143
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
144
+ "decoded_text": "eine weitergabe ihrer daten an externe stellen erfolgt ausschließlich zu zwecken,",
145
+ "diff": [
146
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
147
+ "replace text[5:6] --> decoded_text[5:6] 'W' --> 'w'",
148
+ "replace text[16:17] --> decoded_text[16:17] 'I' --> 'i'",
149
+ "replace text[22:23] --> decoded_text[22:23] 'D' --> 'd'",
150
+ "replace text[39:40] --> decoded_text[39:40] 'S' --> 's'",
151
+ "replace text[73:74] --> decoded_text[73:74] 'Z' --> 'z'"
152
+ ],
153
+ "n_oov_chars": 6,
154
+ "oov_ratio": 0.07407407407407407,
155
+ "oov_charset": "[\"E\", \"W\", \"I\", \"D\", \"S\", \"Z\"]"
156
+ },
157
+ {
158
+ "text": "bei denen wir zur Erfüllung gesetzlicher Vorgaben zur Auskunft, Meldung oder Weitergabe von Daten verpflichtet oder berechtigt sind oder die Datenweitergabe im öffentlichen Interesse liegt;",
159
+ "decoded_text": "bei denen wir zur erfüllung gesetzlicher vorgaben zur auskunft, meldung oder weitergabe von daten verpflichtet oder berechtigt sind oder die datenweitergabe im öffentlichen interesse liegt;",
160
+ "diff": [
161
+ "replace text[18:19] --> decoded_text[18:19] 'E' --> 'e'",
162
+ "replace text[41:42] --> decoded_text[41:42] 'V' --> 'v'",
163
+ "replace text[54:55] --> decoded_text[54:55] 'A' --> 'a'",
164
+ "replace text[64:65] --> decoded_text[64:65] 'M' --> 'm'",
165
+ "replace text[77:78] --> decoded_text[77:78] 'W' --> 'w'",
166
+ "replace text[92:93] --> decoded_text[92:93] 'D' --> 'd'",
167
+ "replace text[141:142] --> decoded_text[141:142] 'D' --> 'd'",
168
+ "replace text[173:174] --> decoded_text[173:174] 'I' --> 'i'"
169
+ ],
170
+ "n_oov_chars": 8,
171
+ "oov_ratio": 0.042328042328042326,
172
+ "oov_charset": "[\"E\", \"V\", \"A\", \"M\", \"W\", \"D\", \"I\"]"
173
+ },
174
+ {
175
+ "text": "aufgrund unseres berechtigten Interesses oder des berechtigten Interesses des Dritten (z.B. an Behörden, Auskunfteien, Rechtsanwälte, Gerichte, Gutachter, und Gremien und Kontrollinstanzen);",
176
+ "decoded_text": "aufgrund unseres berechtigten interesses oder des berechtigten interesses des dritten (z.b. an behörden, auskunfteien, rechtsanwälte, gerichte, gutachter, und gremien und kontrollinstanzen);",
177
+ "diff": [
178
+ "replace text[30:31] --> decoded_text[30:31] 'I' --> 'i'",
179
+ "replace text[63:64] --> decoded_text[63:64] 'I' --> 'i'",
180
+ "replace text[78:79] --> decoded_text[78:79] 'D' --> 'd'",
181
+ "replace text[89:90] --> decoded_text[89:90] 'B' --> 'b'",
182
+ "replace text[95:96] --> decoded_text[95:96] 'B' --> 'b'",
183
+ "replace text[105:106] --> decoded_text[105:106] 'A' --> 'a'",
184
+ "replace text[119:120] --> decoded_text[119:120] 'R' --> 'r'",
185
+ "replace text[134:135] --> decoded_text[134:135] 'G' --> 'g'",
186
+ "replace text[144:145] --> decoded_text[144:145] 'G' --> 'g'",
187
+ "replace text[159:160] --> decoded_text[159:160] 'G' --> 'g'",
188
+ "replace text[171:172] --> decoded_text[171:172] 'K' --> 'k'"
189
+ ],
190
+ "n_oov_chars": 11,
191
+ "oov_ratio": 0.05789473684210526,
192
+ "oov_charset": "[\"I\", \"D\", \"B\", \"A\", \"R\", \"G\", \"K\"]"
193
+ }
194
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.en.diff.json ADDED
@@ -0,0 +1,123 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Belmont Estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. Listed on Thursday, the home is being sold by high-end real estate firm Sotheby’s International Realty Canada.",
4
+ "decoded_text": "belmont estate is on the market for $63 million and boasts roughly 22,000 square feet of luxurious finishes and elaborate architecture on 1.28 acres. listed on thursday, the home is being sold by high-end real estate firm sotheby’s international realty canada.",
5
+ "diff": [
6
+ "replace text[0:9] --> decoded_text[0:9] 'Belmont E' --> 'belmont e'",
7
+ "replace text[150:161] --> decoded_text[150:161] 'Listed on T' --> 'listed on t'",
8
+ "replace text[222:223] --> decoded_text[222:223] 'S' --> 's'",
9
+ "replace text[232:254] --> decoded_text[232:254] 'International Realty C' --> 'international realty c'"
10
+ ],
11
+ "n_oov_chars": 8,
12
+ "oov_ratio": 0.03076923076923077,
13
+ "oov_charset": "[\"B\", \"E\", \"L\", \"T\", \"S\", \"I\", \"R\", \"C\"]"
14
+ },
15
+ {
16
+ "text": "“Within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent Christa Frosch of Sotheby’s tells BuzzBuzzNews.",
17
+ "decoded_text": "“within the city we’ve had homes that have sold for $56 million, $33 million, $31 million but this will be the record of the offering price,” listing agent christa frosch of sotheby’s tells buzzbuzznews.",
18
+ "diff": [
19
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
20
+ "replace text[156:175] --> decoded_text[156:175] 'Christa Frosch of S' --> 'christa frosch of s'",
21
+ "replace text[190:191] --> decoded_text[190:191] 'B' --> 'b'",
22
+ "replace text[194:195] --> decoded_text[194:195] 'B' --> 'b'",
23
+ "replace text[198:199] --> decoded_text[198:199] 'N' --> 'n'"
24
+ ],
25
+ "n_oov_chars": 7,
26
+ "oov_ratio": 0.034482758620689655,
27
+ "oov_charset": "[\"W\", \"C\", \"F\", \"S\", \"B\", \"N\"]"
28
+ },
29
+ {
30
+ "text": "The three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. Built to entertain, two main gallery halls can seat up to 100 guests. The Italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. Lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
31
+ "decoded_text": "the three-storey home has five bedrooms, twelve bathrooms and an elevator in the west wing. built to entertain, two main gallery halls can seat up to 100 guests. the italian-inspired kitchen includes a fireplace and walls and ceilings throughout the home feature murals and artwork. lavish amenities include an indoor pool and sauna, a six-car garage and a private entrance in-law’s suite.",
32
+ "diff": [
33
+ "replace text[0:1] --> decoded_text[0:1] 'T' --> 't'",
34
+ "replace text[92:93] --> decoded_text[92:93] 'B' --> 'b'",
35
+ "replace text[162:167] --> decoded_text[162:167] 'The I' --> 'the i'",
36
+ "replace text[283:284] --> decoded_text[283:284] 'L' --> 'l'"
37
+ ],
38
+ "n_oov_chars": 5,
39
+ "oov_ratio": 0.012853470437017995,
40
+ "oov_charset": "[\"T\", \"B\", \"I\", \"L\"]"
41
+ },
42
+ {
43
+ "text": "Surrounding the property is a Versailles-inspired garden with a variety of trees, plants and an orchard. In the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
44
+ "decoded_text": "surrounding the property is a versailles-inspired garden with a variety of trees, plants and an orchard. in the spring, over 12,000 flowers bloom in the tiered, three-level garden.",
45
+ "diff": [
46
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
47
+ "replace text[30:31] --> decoded_text[30:31] 'V' --> 'v'",
48
+ "replace text[105:106] --> decoded_text[105:106] 'I' --> 'i'"
49
+ ],
50
+ "n_oov_chars": 3,
51
+ "oov_ratio": 0.016666666666666666,
52
+ "oov_charset": "[\"S\", \"V\", \"I\"]"
53
+ },
54
+ {
55
+ "text": "According to Frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
56
+ "decoded_text": "according to frosch, the listing has received global attention and, despite being on the market for only 24 hours, buyers are already showing interest.",
57
+ "diff": [
58
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
59
+ "replace text[13:14] --> decoded_text[13:14] 'F' --> 'f'"
60
+ ],
61
+ "n_oov_chars": 2,
62
+ "oov_ratio": 0.013245033112582781,
63
+ "oov_charset": "[\"A\", \"F\"]"
64
+ },
65
+ {
66
+ "text": "“We just went to the market yesterday, it’s private through Sotheby’s and we’ve already started to get calls,” says Frosch.",
67
+ "decoded_text": "“we just went to the market yesterday, it’s private through sotheby’s and we’ve already started to get calls,” says frosch.",
68
+ "diff": [
69
+ "replace text[1:2] --> decoded_text[1:2] 'W' --> 'w'",
70
+ "replace text[60:61] --> decoded_text[60:61] 'S' --> 's'",
71
+ "replace text[116:117] --> decoded_text[116:117] 'F' --> 'f'"
72
+ ],
73
+ "n_oov_chars": 3,
74
+ "oov_ratio": 0.024390243902439025,
75
+ "oov_charset": "[\"W\", \"S\", \"F\"]"
76
+ },
77
+ {
78
+ "text": "Stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. You will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
79
+ "decoded_text": "stay well hydrated—that means you should include about 48- 64 ounces of liquid (non-calorie) each day. you will be drinking small amounts (“sips”) every hour through the day since you will not be able to drink a large amount all at once.",
80
+ "diff": [
81
+ "replace text[0:1] --> decoded_text[0:1] 'S' --> 's'",
82
+ "replace text[103:104] --> decoded_text[103:104] 'Y' --> 'y'"
83
+ ],
84
+ "n_oov_chars": 2,
85
+ "oov_ratio": 0.008438818565400843,
86
+ "oov_charset": "[\"S\", \"Y\"]"
87
+ },
88
+ {
89
+ "text": "On Day Four after your surgery, begin adding liquid protein during this Phase (20 to 30 grams per day). That means you should buy a protein powder suggested by your dietitian, doctor or nurse. We recommend:",
90
+ "decoded_text": "on day four after your surgery, begin adding liquid protein during this phase (20 to 30 grams per day). that means you should buy a protein powder suggested by your dietitian, doctor or nurse. we recommend:",
91
+ "diff": [
92
+ "replace text[0:13] --> decoded_text[0:7] 'On Day Four a' --> 'on day '",
93
+ "insert text[14:14] --> decoded_text[8:14] '' --> 'our af'",
94
+ "replace text[72:73] --> decoded_text[72:73] 'P' --> 'p'",
95
+ "replace text[104:105] --> decoded_text[104:105] 'T' --> 't'",
96
+ "replace text[193:194] --> decoded_text[193:194] 'W' --> 'w'"
97
+ ],
98
+ "n_oov_chars": 6,
99
+ "oov_ratio": 0.02912621359223301,
100
+ "oov_charset": "[\"O\", \"D\", \"F\", \"P\", \"T\", \"W\"]"
101
+ },
102
+ {
103
+ "text": "Unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.UNJURY.com or 800-517-5111",
104
+ "decoded_text": "unjury (20grams of whey protein isolate per packet) once a day (available at our office or www.unjury.com or 800-517-5111",
105
+ "diff": [
106
+ "replace text[0:1] --> decoded_text[0:1] 'U' --> 'u'",
107
+ "replace text[95:101] --> decoded_text[95:101] 'UNJURY' --> 'unjury'"
108
+ ],
109
+ "n_oov_chars": 7,
110
+ "oov_ratio": 0.05785123966942149,
111
+ "oov_charset": "[\"U\", \"N\", \"J\", \"R\", \"Y\"]"
112
+ },
113
+ {
114
+ "text": "Watch for signs of dehydration!",
115
+ "decoded_text": "watch for signs of dehydration!",
116
+ "diff": [
117
+ "replace text[0:1] --> decoded_text[0:1] 'W' --> 'w'"
118
+ ],
119
+ "n_oov_chars": 1,
120
+ "oov_ratio": 0.03225806451612903,
121
+ "oov_charset": "[\"W\"]"
122
+ }
123
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.es.diff.json ADDED
@@ -0,0 +1,114 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "\"Se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"Los Sanguinarios del Norte Chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó Medina.",
4
+ "decoded_text": "\"se trata de un trabajo de cerca de seis meses. paciente, articulado, contra la organización criminal \"los sanguinarios del norte chico\" dedicados a la extorsión, robo, sicariato, tráfico ilícito de drogas.\", explicó medina.",
5
+ "diff": [
6
+ "replace text[1:2] --> decoded_text[1:2] 'S' --> 's'",
7
+ "replace text[103:108] --> decoded_text[103:108] 'Los S' --> 'los s'",
8
+ "replace text[124:131] --> decoded_text[124:131] 'Norte C' --> 'norte c'",
9
+ "replace text[217:218] --> decoded_text[217:218] 'M' --> 'm'"
10
+ ],
11
+ "n_oov_chars": 6,
12
+ "oov_ratio": 0.026785714285714284,
13
+ "oov_charset": "[\"S\", \"L\", \"N\", \"C\", \"M\"]"
14
+ },
15
+ {
16
+ "text": "Hasta el momento se han detenido a 48 integrantes de la organización criminal.",
17
+ "decoded_text": "hasta el momento se han detenido a 48 integrantes de la organización criminal.",
18
+ "diff": [
19
+ "replace text[0:1] --> decoded_text[0:1] 'H' --> 'h'"
20
+ ],
21
+ "n_oov_chars": 1,
22
+ "oov_ratio": 0.01282051282051282,
23
+ "oov_charset": "[\"H\"]"
24
+ },
25
+ {
26
+ "text": "A \"Los Sanguinarios del Norte Chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
27
+ "decoded_text": "a \"los sanguinarios del norte chico\" se les ha atribuido al menos 17 homicidios cometidos por sicarios debido a ajustes de cuentas para el control del cobro de cupos o contra objetivos que se negaban a acatar sus condiciones.",
28
+ "diff": [
29
+ "replace text[0:1] --> decoded_text[0:1] 'A' --> 'a'",
30
+ "replace text[3:8] --> decoded_text[3:8] 'Los S' --> 'los s'",
31
+ "replace text[24:31] --> decoded_text[24:31] 'Norte C' --> 'norte c'"
32
+ ],
33
+ "n_oov_chars": 5,
34
+ "oov_ratio": 0.022222222222222223,
35
+ "oov_charset": "[\"A\", \"L\", \"S\", \"N\", \"C\"]"
36
+ },
37
+ {
38
+ "text": "En este megaoperativo han participado 800 agentes de la Policia Nacional del Peru y 85 fiscales, quienes se han desplazado en 130 vehículos. Asimismo, e los 47 detenidos, 10 son mujeres.",
39
+ "decoded_text": "en este megaoperativo han participado 800 agentes de la policia nacional del peru y 85 fiscales, quienes se han desplazado en 130 vehículos. asimismo, e los 47 detenidos, 10 son mujeres.",
40
+ "diff": [
41
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'",
42
+ "replace text[56:57] --> decoded_text[56:57] 'P' --> 'p'",
43
+ "replace text[64:65] --> decoded_text[64:65] 'N' --> 'n'",
44
+ "replace text[77:78] --> decoded_text[77:78] 'P' --> 'p'",
45
+ "replace text[141:142] --> decoded_text[141:142] 'A' --> 'a'"
46
+ ],
47
+ "n_oov_chars": 5,
48
+ "oov_ratio": 0.026881720430107527,
49
+ "oov_charset": "[\"E\", \"P\", \"N\", \"A\"]"
50
+ },
51
+ {
52
+ "text": "1. El período de vacaciones anuales retribuidas, no sustituible",
53
+ "decoded_text": "1. el período de vacaciones anuales retribuidas, no sustituible",
54
+ "diff": [
55
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
56
+ ],
57
+ "n_oov_chars": 1,
58
+ "oov_ratio": 0.015873015873015872,
59
+ "oov_charset": "[\"E\"]"
60
+ },
61
+ {
62
+ "text": "– Art. 2, Ley 4/1983, de 29 de junio, de fijación de la jornada",
63
+ "decoded_text": "– art. 2, ley 4/1983, de 29 de junio, de fijación de la jornada",
64
+ "diff": [
65
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
66
+ "replace text[10:11] --> decoded_text[10:11] 'L' --> 'l'"
67
+ ],
68
+ "n_oov_chars": 2,
69
+ "oov_ratio": 0.031746031746031744,
70
+ "oov_charset": "[\"A\", \"L\"]"
71
+ },
72
+ {
73
+ "text": "2. El período o períodos de su disfrute se fijará de común",
74
+ "decoded_text": "2. el período o períodos de su disfrute se fijará de común",
75
+ "diff": [
76
+ "replace text[3:4] --> decoded_text[3:4] 'E' --> 'e'"
77
+ ],
78
+ "n_oov_chars": 1,
79
+ "oov_ratio": 0.017241379310344827,
80
+ "oov_charset": "[\"E\"]"
81
+ },
82
+ {
83
+ "text": "con lo establecido en su caso en los Convenios Colectivos",
84
+ "decoded_text": "con lo establecido en su caso en los convenios colectivos",
85
+ "diff": [
86
+ "replace text[37:38] --> decoded_text[37:38] 'C' --> 'c'",
87
+ "replace text[47:48] --> decoded_text[47:48] 'C' --> 'c'"
88
+ ],
89
+ "n_oov_chars": 2,
90
+ "oov_ratio": 0.03508771929824561,
91
+ "oov_charset": "[\"C\"]"
92
+ },
93
+ {
94
+ "text": "En caso de desacuerdo entre las partes, la jurisdicción competente",
95
+ "decoded_text": "en caso de desacuerdo entre las partes, la jurisdicción competente",
96
+ "diff": [
97
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.015151515151515152,
101
+ "oov_charset": "[\"E\"]"
102
+ },
103
+ {
104
+ "text": "– Art. 4 Ley 11/1994, de 19 de mayo, por la que se modifican",
105
+ "decoded_text": "– art. 4 ley 11/1994, de 19 de mayo, por la que se modifican",
106
+ "diff": [
107
+ "replace text[2:3] --> decoded_text[2:3] 'A' --> 'a'",
108
+ "replace text[9:10] --> decoded_text[9:10] 'L' --> 'l'"
109
+ ],
110
+ "n_oov_chars": 2,
111
+ "oov_ratio": 0.03333333333333333,
112
+ "oov_charset": "[\"A\", \"L\"]"
113
+ }
114
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fa.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "آشپزخانه کوچک من: February 2012",
4
+ "decoded_text": "آشپزخانه کوچک من: february 2012",
5
+ "diff": [
6
+ "replace text[18:19] --> decoded_text[18:19] 'F' --> 'f'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.03225806451612903,
10
+ "oov_charset": "[\"F\"]"
11
+ },
12
+ {
13
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest",
14
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در twitter به اشتراک بگذارید‏در facebook به اشتراک بگذارید‏اشتراک‌گذاری در pinterest",
15
+ "diff": [
16
+ "replace text[50:51] --> decoded_text[50:51] 'T' --> 't'",
17
+ "replace text[79:80] --> decoded_text[79:80] 'F' --> 'f'",
18
+ "replace text[122:123] --> decoded_text[122:123] 'P' --> 'p'"
19
+ ],
20
+ "n_oov_chars": 3,
21
+ "oov_ratio": 0.022900763358778626,
22
+ "oov_charset": "[\"T\", \"F\", \"P\"]"
23
+ },
24
+ {
25
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
26
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
27
+ "diff": [
28
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
29
+ ],
30
+ "n_oov_chars": 0,
31
+ "oov_ratio": 0.0,
32
+ "oov_charset": "[]"
33
+ },
34
+ {
35
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
36
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
37
+ "diff": [
38
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
46
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
47
+ "diff": [
48
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
49
+ ],
50
+ "n_oov_chars": 0,
51
+ "oov_ratio": 0.0,
52
+ "oov_charset": "[]"
53
+ },
54
+ {
55
+ "text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا , التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه ,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است . در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
56
+ "decoded_text": "به اشپزخانه کوچک من خوش امدید از اونجایی که عاشق اشپزی هستم و از اشپزی لذت میبرم و خیلی اشپز خوبیم(خود شیفتگی مزمن) تصمیم گرفتم که دانسته هایم را با شما به اشتراک بگذارم امیدوارم که شما هم استفاده کامل رو از اشپزخانه من ببرید همه این غذاهایی که می بینید دست پخت اینجانب می باشد لطفا, خواهشا, التماس میکنم اگر از کارهام کپی کردین اسم این اشپز معروف رو هم بیارید اگر این کار رو نکنید انشا الله به حق 124 هزار پیغمبر به زودی بترکین ________________________ استفاده از عکسهای اشپزخانه کوچک من در فضاهای مجازی و نشریات چاپی فقط با اجازه رسمی نگارنده و با ذکر منبع و نشانی وبلاگ مجاز است. × استفاده از عکسها در کتاب یا روزنامه,مجله امثال آن صرفا با اجازه رسمی نگارنده مجاز است. در غیر اینصورت پیگیری قضایی صورت خواهد گرفت.",
57
+ "diff": [
58
+ "delete text[290:291] --> decoded_text[290:290] ' ' --> ''",
59
+ "delete text[621:622] --> decoded_text[620:620] ' ' --> ''",
60
+ "delete text[672:673] --> decoded_text[670:670] ' ' --> ''"
61
+ ],
62
+ "n_oov_chars": 0,
63
+ "oov_ratio": 0.0,
64
+ "oov_charset": "[]"
65
+ },
66
+ {
67
+ "text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا ...",
68
+ "decoded_text": "مواد لازم: نشاسته: 200 گرم==== 1و2/3 پیمانه ماست: 180 گرم ==== 3/4 پیمانه ارد : 1 قاشق چای خوری زعفران اب شده : 1 قاشق غذا...",
69
+ "diff": [
70
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
71
+ ],
72
+ "n_oov_chars": 0,
73
+ "oov_ratio": 0.0,
74
+ "oov_charset": "[]"
75
+ },
76
+ {
77
+ "text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم ...",
78
+ "decoded_text": "مواد لازم: تخم مرغ :4 عدد ارد: 3/4 پیمانه شکر:3/4 پیمانه وانیل: یک قاشق چایخوری بیکینگ پودر:1/2 قاشق چای خوری خامه به مقدار لازم...",
79
+ "diff": [
80
+ "delete text[128:129] --> decoded_text[128:128] ' ' --> ''"
81
+ ],
82
+ "n_oov_chars": 0,
83
+ "oov_ratio": 0.0,
84
+ "oov_charset": "[]"
85
+ },
86
+ {
87
+ "text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری ...",
88
+ "decoded_text": "مواد لازم: سیب زمینی: 4 عدد درشت پیاز : یک عدد کوچک فلفل دلمه ای : 1/4 یک عدد فلفل قارچ: 1 عدد سیر:2 حبه رب:1 قاشق غذا خوری...",
89
+ "diff": [
90
+ "delete text[123:124] --> decoded_text[123:123] ' ' --> ''"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک ...",
98
+ "decoded_text": "مواد لازم: کدو سبز: 1 عدد درشت پیازچه: 2 عدد ریز خرد شده پودر سوخاری : 1 پیمانه پنیر پارمسان : 1/2 پیمانه ریز رنده شده نمک...",
99
+ "diff": [
100
+ "delete text[122:123] --> decoded_text[122:122] ' ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ }
106
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.fr.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
4
+ "decoded_text": "bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
5
+ "diff": [
6
+ "replace text[0:1] --> decoded_text[0:1] 'B' --> 'b'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.007751937984496124,
10
+ "oov_charset": "[\"B\"]"
11
+ },
12
+ {
13
+ "text": "Vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
14
+ "decoded_text": "vous dites ce que vous voulez, faut justes des infos autour desquelles on réfléchira.",
15
+ "diff": [
16
+ "replace text[0:1] --> decoded_text[0:1] 'V' --> 'v'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.011764705882352941,
20
+ "oov_charset": "[\"V\"]"
21
+ },
22
+ {
23
+ "text": "Encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
24
+ "decoded_text": "encore une fois, vous n'etes pas obligé de vous dévoilez entièrement",
25
+ "diff": [
26
+ "replace text[0:1] --> decoded_text[0:1] 'E' --> 'e'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.014705882352941176,
30
+ "oov_charset": "[\"E\"]"
31
+ },
32
+ {
33
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
34
+ "decoded_text": "- je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
35
+ "diff": [
36
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
37
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.004098360655737705,
41
+ "oov_charset": "[\"J\"]"
42
+ },
43
+ {
44
+ "text": "- Je peux penser une chose et son contraire. Par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
45
+ "decoded_text": "- je peux penser une chose et son contraire. par exemple, quand ma mère dit que les politiciens ne foutent rien pour les attentats, je me dit que si, ils essaient des trucs, mais pourtant je pense aussi qu'ils n'en ont rien à branler.",
46
+ "diff": [
47
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
48
+ "replace text[45:46] --> decoded_text[45:46] 'P' --> 'p'"
49
+ ],
50
+ "n_oov_chars": 2,
51
+ "oov_ratio": 0.008547008547008548,
52
+ "oov_charset": "[\"J\", \"P\"]"
53
+ },
54
+ {
55
+ "text": "- Je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. Exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
56
+ "decoded_text": "- je penses et réfléchit tout seul sur des sujets n'ayant rien à voir avec une situation. exemple, quand j'attends mes soeurs et ma mère devant un magasin, je réfléchit à la création du monde.",
57
+ "diff": [
58
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
59
+ "replace text[90:91] --> decoded_text[90:91] 'E' --> 'e'"
60
+ ],
61
+ "n_oov_chars": 2,
62
+ "oov_ratio": 0.010416666666666666,
63
+ "oov_charset": "[\"J\", \"E\"]"
64
+ },
65
+ {
66
+ "text": "- Je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par Internet ou ailleurs qu'au lycée",
67
+ "decoded_text": "- je suis arrogant avec ma famille, mais faible avec mes \"amis\" du lycée, et ait tendance à preférer ceux que je connais par internet ou ailleurs qu'au lycée",
68
+ "diff": [
69
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'",
70
+ "replace text[125:126] --> decoded_text[125:126] 'I' --> 'i'"
71
+ ],
72
+ "n_oov_chars": 2,
73
+ "oov_ratio": 0.012738853503184714,
74
+ "oov_charset": "[\"J\", \"I\"]"
75
+ },
76
+ {
77
+ "text": "- Je dois être mentalement instable, par moments",
78
+ "decoded_text": "- je dois être mentalement instable, par moments",
79
+ "diff": [
80
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
81
+ ],
82
+ "n_oov_chars": 1,
83
+ "oov_ratio": 0.020833333333333332,
84
+ "oov_charset": "[\"J\"]"
85
+ },
86
+ {
87
+ "text": "- Je n'envoie que très peu de sms et n'appelle personne",
88
+ "decoded_text": "- je n'envoie que très peu de sms et n'appelle personne",
89
+ "diff": [
90
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
91
+ ],
92
+ "n_oov_chars": 1,
93
+ "oov_ratio": 0.01818181818181818,
94
+ "oov_charset": "[\"J\"]"
95
+ },
96
+ {
97
+ "text": "- J'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
98
+ "decoded_text": "- j'ai tendance à voir les autres humains \"normaux\" comme des abrutis n'ayant aucune ou peu de capacités de réflexions, et je sais que je ne dois pas",
99
+ "diff": [
100
+ "replace text[2:3] --> decoded_text[2:3] 'J' --> 'j'"
101
+ ],
102
+ "n_oov_chars": 1,
103
+ "oov_ratio": 0.006711409395973154,
104
+ "oov_charset": "[\"J\"]"
105
+ }
106
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ja.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
4
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
5
+ "diff": [
6
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.02702702702702703,
10
+ "oov_charset": "[\"!\"]"
11
+ },
12
+ {
13
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
14
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
15
+ "diff": [
16
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.02040816326530612,
20
+ "oov_charset": "[\"1\"]"
21
+ },
22
+ {
23
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
24
+ "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
25
+ "diff": [
26
+ "replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
27
+ "replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
28
+ ],
29
+ "n_oov_chars": 2,
30
+ "oov_ratio": 0.03125,
31
+ "oov_charset": "[\"5\", \"1\"]"
32
+ },
33
+ {
34
+ "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
35
+ "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
36
+ "diff": [
37
+ "replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
38
+ ],
39
+ "n_oov_chars": 2,
40
+ "oov_ratio": 0.024096385542168676,
41
+ "oov_charset": "[\"…\"]"
42
+ },
43
+ {
44
+ "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
45
+ "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
46
+ "diff": [
47
+ "replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
48
+ ],
49
+ "n_oov_chars": 2,
50
+ "oov_ratio": 0.029411764705882353,
51
+ "oov_charset": "[\"…\"]"
52
+ },
53
+ {
54
+ "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
55
+ "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
56
+ "diff": [
57
+ "replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.015384615384615385,
61
+ "oov_charset": "[\"!\"]"
62
+ },
63
+ {
64
+ "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
65
+ "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
66
+ "diff": [
67
+ "replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.029411764705882353,
71
+ "oov_charset": "[\"1\"]"
72
+ },
73
+ {
74
+ "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
75
+ "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
76
+ "diff": [
77
+ "replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
78
+ ],
79
+ "n_oov_chars": 1,
80
+ "oov_ratio": 0.023809523809523808,
81
+ "oov_charset": "[\"?\"]"
82
+ },
83
+ {
84
+ "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
85
+ "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
86
+ "diff": [
87
+ "replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
88
+ ],
89
+ "n_oov_chars": 1,
90
+ "oov_ratio": 0.024390243902439025,
91
+ "oov_charset": "[\"1\"]"
92
+ },
93
+ {
94
+ "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
95
+ "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
96
+ "diff": [
97
+ "replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.015384615384615385,
101
+ "oov_charset": "[\"?\"]"
102
+ }
103
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.ko.diff.json ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "+ HOME > 라이브스코어",
4
+ "decoded_text": "+ home > 라이브스코어",
5
+ "diff": [
6
+ "replace text[2:6] --> decoded_text[2:6] 'HOME' --> 'home'"
7
+ ],
8
+ "n_oov_chars": 4,
9
+ "oov_ratio": 0.26666666666666666,
10
+ "oov_charset": "[\"H\", \"O\", \"M\", \"E\"]"
11
+ },
12
+ {
13
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
14
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
15
+ "diff": [
16
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
17
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
25
+ "decoded_text": "여기서승리한 2팀이 준결승에 오른다. 결국 a, b조 1위는 12강-4강-결승으로 3경기를 치르지만, c, d, 황금의제국카지노 e, f조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
26
+ "diff": [
27
+ "replace text[24:25] --> decoded_text[24:25] 'A' --> 'a'",
28
+ "replace text[27:28] --> decoded_text[27:28] 'B' --> 'b'",
29
+ "replace text[57:58] --> decoded_text[57:58] 'C' --> 'c'",
30
+ "replace text[60:61] --> decoded_text[60:61] 'D' --> 'd'",
31
+ "replace text[72:73] --> decoded_text[72:73] 'E' --> 'e'",
32
+ "replace text[75:76] --> decoded_text[75:76] 'F' --> 'f'"
33
+ ],
34
+ "n_oov_chars": 6,
35
+ "oov_ratio": 0.05405405405405406,
36
+ "oov_charset": "[\"A\", \"B\", \"C\", \"D\", \"E\", \"F\"]"
37
+ },
38
+ {
39
+ "text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(EPL)에서 폭넓은 경험을 쌓았다.",
40
+ "decoded_text": "알더베이럴트는맨유의 수비를 보강해줄 능력이 충분하다. 지난 황금의제국카지노 2014년부터 사우샘프턴, 토트넘을 거치며 잉글랜드 주소 프리미어리그(epl)에서 폭넓은 경험을 쌓았다.",
41
+ "diff": [
42
+ "replace text[81:84] --> decoded_text[81:84] 'EPL' --> 'epl'"
43
+ ],
44
+ "n_oov_chars": 3,
45
+ "oov_ratio": 0.03,
46
+ "oov_charset": "[\"E\", \"P\", \"L\"]"
47
+ },
48
+ {
49
+ "text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvN ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
50
+ "decoded_text": "민준이형은잘 모르겠다. 준호도 같은 시기에 드라마를 주소 해서 못 봤을 황금의제국카지노 것 같고, 닉쿤형도 화성(tvn ‘갈릴레오’)에 다녀오고 해외 스케줄이 많아서 보지는 못 했을 것이다.”",
51
+ "diff": [
52
+ "replace text[65:66] --> decoded_text[65:66] 'N' --> 'n'"
53
+ ],
54
+ "n_oov_chars": 1,
55
+ "oov_ratio": 0.009345794392523364,
56
+ "oov_charset": "[\"N\"]"
57
+ },
58
+ {
59
+ "text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 JLPGA 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
60
+ "decoded_text": "황아름은2009년 야마하 레이디스 오픈에서 생애 첫 jlpga 투어 황금의제국카지노 우승을 차지했다. 이후 좀처럼 승전보를 전하지 못한 그는 무려 주소 9년 4개월 만에 정상에 등극했다.",
61
+ "diff": [
62
+ "replace text[29:34] --> decoded_text[29:34] 'JLPGA' --> 'jlpga'"
63
+ ],
64
+ "n_oov_chars": 5,
65
+ "oov_ratio": 0.04807692307692308,
66
+ "oov_charset": "[\"J\", \"L\", \"P\", \"G\", \"A\"]"
67
+ },
68
+ {
69
+ "text": "-이번AG에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
70
+ "decoded_text": "-이번ag에서 두 주소 선수는 어떤 황금의제국카지노 그림을 그리고 있나요.",
71
+ "diff": [
72
+ "replace text[3:5] --> decoded_text[3:5] 'AG' --> 'ag'"
73
+ ],
74
+ "n_oov_chars": 2,
75
+ "oov_ratio": 0.04878048780487805,
76
+ "oov_charset": "[\"A\", \"G\"]"
77
+ },
78
+ {
79
+ "text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 PO에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
80
+ "decoded_text": "1위를할 경우 대진표와 객관적인 전력으로 황금의제국카지노 볼 때 6강 po에서 일본, 4강에서 최강 주소 이란을 연달아 만날 가능성이 높다. 한 마디로 '최악'이다.",
81
+ "diff": [
82
+ "replace text[39:41] --> decoded_text[39:41] 'PO' --> 'po'"
83
+ ],
84
+ "n_oov_chars": 2,
85
+ "oov_ratio": 0.021739130434782608,
86
+ "oov_charset": "[\"P\", \"O\"]"
87
+ },
88
+ {
89
+ "text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(UAE)와 함께 B조에 편성돼 있었다.",
90
+ "decoded_text": "15개국이출전하기로 했던 아시안게임 황금의제국카지노 남자농구에서 필리핀은 이란, 시리아, 아랍에미리트(uae)와 함께 b조에 편성돼 있었다.",
91
+ "diff": [
92
+ "replace text[57:60] --> decoded_text[57:60] 'UAE' --> 'uae'",
93
+ "replace text[66:67] --> decoded_text[66:67] 'B' --> 'b'"
94
+ ],
95
+ "n_oov_chars": 4,
96
+ "oov_ratio": 0.05128205128205128,
97
+ "oov_charset": "[\"U\", \"A\", \"E\", \"B\"]"
98
+ },
99
+ {
100
+ "text": "한국은인도네시아, 태국, 몽골과 A조에 편성됐다. 일본, 카타르, 대만, 홍콩이 C조에 포진하고 중국, 카자흐스탄, 팔레스타인이 D조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
101
+ "decoded_text": "한국은인도네시아, 태국, 몽골과 a조에 편성됐다. 일본, 카타르, 대만, 홍콩이 c조에 포진하고 중국, 카자흐스탄, 팔레스타인이 d조에 자리잡았으나 팔레스타인도 기권함에 황금의제국카지노 따라 모두 13개국만 출전하게 됐다.",
102
+ "diff": [
103
+ "replace text[18:19] --> decoded_text[18:19] 'A' --> 'a'",
104
+ "replace text[45:46] --> decoded_text[45:46] 'C' --> 'c'",
105
+ "replace text[72:73] --> decoded_text[72:73] 'D' --> 'd'"
106
+ ],
107
+ "n_oov_chars": 3,
108
+ "oov_ratio": 0.024193548387096774,
109
+ "oov_charset": "[\"A\", \"C\", \"D\"]"
110
+ }
111
+ ]
stats/compression_rate/ClassCat.gpt2-base-spanish @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,163 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
4
+ "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4s店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
5
+ "diff": [
6
+ "replace text[57:58] --> decoded_text[57:58] ',' --> ','",
7
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
8
+ "replace text[113:114] --> decoded_text[113:114] ',' --> ','",
9
+ "replace text[132:133] --> decoded_text[132:133] 'S' --> 's'",
10
+ "replace text[136:137] --> decoded_text[136:137] ',' --> ','",
11
+ "replace text[148:149] --> decoded_text[148:149] ',' --> ','",
12
+ "replace text[168:169] --> decoded_text[168:169] ',' --> ','",
13
+ "replace text[183:184] --> decoded_text[183:184] ',' --> ','",
14
+ "replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
15
+ ],
16
+ "n_oov_chars": 9,
17
+ "oov_ratio": 0.04205607476635514,
18
+ "oov_charset": "[\",\", \"S\", \":\"]"
19
+ },
20
+ {
21
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
22
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
23
+ "diff": [
24
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
25
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
26
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
27
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
28
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
29
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
30
+ ],
31
+ "n_oov_chars": 6,
32
+ "oov_ratio": 0.04838709677419355,
33
+ "oov_charset": "[\",\", \"3\", \"5\"]"
34
+ },
35
+ {
36
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
37
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
38
+ "diff": [
39
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
40
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
41
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
42
+ ],
43
+ "n_oov_chars": 3,
44
+ "oov_ratio": 0.0375,
45
+ "oov_charset": "[\",\"]"
46
+ },
47
+ {
48
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
49
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
50
+ "diff": [
51
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
52
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
53
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
54
+ ],
55
+ "n_oov_chars": 3,
56
+ "oov_ratio": 0.038461538461538464,
57
+ "oov_charset": "[\"��\"]"
58
+ },
59
+ {
60
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
61
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(ringostarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(juliaroberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《queenieeye》,然后轮到后者演绎旧作《photograph》,带领歌迷重温昔日的美好情怀。",
62
+ "diff": [
63
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
64
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
65
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
66
+ "replace text[62:63] --> decoded_text[62:63] 'R' --> 'r'",
67
+ "replace text[67:68] --> decoded_text[67:68] 'S' --> 's'",
68
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
69
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
70
+ "replace text[112:113] --> decoded_text[112:113] 'J' --> 'j'",
71
+ "replace text[117:118] --> decoded_text[117:118] 'R' --> 'r'",
72
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
73
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
74
+ "replace text[152:153] --> decoded_text[152:153] 'Q' --> 'q'",
75
+ "replace text[159:160] --> decoded_text[159:160] 'E' --> 'e'",
76
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
77
+ "replace text[175:176] --> decoded_text[175:176] 'P' --> 'p'",
78
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
79
+ ],
80
+ "n_oov_chars": 16,
81
+ "oov_ratio": 0.07960199004975124,
82
+ "oov_charset": "[\",\", \":\", \"R\", \"S\", \"J\", \"Q\", \"E\", \"P\"]"
83
+ },
84
+ {
85
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
86
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
87
+ "diff": [
88
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
89
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
90
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
91
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
92
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
93
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
94
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
95
+ ],
96
+ "n_oov_chars": 7,
97
+ "oov_ratio": 0.08860759493670886,
98
+ "oov_charset": "[\",\"]"
99
+ },
100
+ {
101
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
102
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
103
+ "diff": [
104
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
105
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
106
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
107
+ ],
108
+ "n_oov_chars": 3,
109
+ "oov_ratio": 0.02608695652173913,
110
+ "oov_charset": "[\",\"]"
111
+ },
112
+ {
113
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
114
+ "decoded_text": "���腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
115
+ "diff": [
116
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
117
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
118
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
119
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
120
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
121
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
122
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
123
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
124
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
125
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
126
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
127
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
128
+ ],
129
+ "n_oov_chars": 12,
130
+ "oov_ratio": 0.08759124087591241,
131
+ "oov_charset": "[\",\", \":\", \"?\"]"
132
+ },
133
+ {
134
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
135
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
136
+ "diff": [
137
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
138
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
139
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
140
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
141
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
142
+ ],
143
+ "n_oov_chars": 5,
144
+ "oov_ratio": 0.05747126436781609,
145
+ "oov_charset": "[\",\"]"
146
+ },
147
+ {
148
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
149
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
150
+ "diff": [
151
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
152
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
153
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
154
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
155
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
156
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
157
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
158
+ ],
159
+ "n_oov_chars": 7,
160
+ "oov_ratio": 0.05303030303030303,
161
+ "oov_charset": "[\",\"]"
162
+ }
163
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ar.diff.json ADDED
@@ -0,0 +1,177 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- الل<unk>ا<unk> / <unk>ل<unk> <unk> ال<unk>لا<unk> - <unk> <unk>ا<unk>.. ( 1)",
5
+ "diff": [
6
+ "replace text[5:6] --> decoded_text[5:10] 'و' --> '<unk>'",
7
+ "replace text[7:8] --> decoded_text[11:16] 'ء' --> '<unk>'",
8
+ "replace text[11:12] --> decoded_text[19:24] 'ع' --> '<unk>'",
9
+ "replace text[13:14] --> decoded_text[25:30] 'ي' --> '<unk>'",
10
+ "replace text[15:19] --> decoded_text[31:36] 'محمد' --> '<unk>'",
11
+ "replace text[22:24] --> decoded_text[39:44] 'كح' --> '<unk>'",
12
+ "replace text[26:28] --> decoded_text[46:51] 'ني' --> '<unk>'",
13
+ "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> '<unk>'",
14
+ "replace text[37:38] --> decoded_text[60:65] 'ص' --> '<unk>'",
15
+ "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> '<unk>'"
16
+ ],
17
+ "n_oov_chars": 21,
18
+ "oov_ratio": 0.42,
19
+ "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
20
+ },
21
+ {
22
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
23
+ "decoded_text": "ال<unk> <unk>ا <unk>ال<unk>ا.. <unk>ا <unk>ا <unk> <unk>ل<unk> <unk>ا<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk>ال<unk> <unk> ا<unk>ا<unk> <unk>ا ال<unk>, <unk> <unk>ا<unk>ا الا<unk>ا<unk> ال<unk> <unk> 22<unk>ا<unk> ال<unk>ا<unk> 1990<unk>.. <unk>ل <unk> <unk> <unk> <unk> <unk>ا<unk> <unk>ا<unk>ا <unk>ل<unk>ا<unk> <unk> ل<unk>ا <unk>ل <unk>ل<unk> <unk>ال <unk>ا<unk>ا <unk> ا<unk>ال <unk> ا<unk>ا<unk>, <unk> ا<unk>ا<unk> <unk> <unk>ا الا<unk>ا<unk>, <unk> ا<unk>ا<unk> <unk> <unk> <unk>ا<unk>ا ل<unk>لا<unk>ا<unk> ال<unk> <unk>ل<unk>ا<unk>ا<unk>.. <unk> <unk> ال<unk>ا<unk> ل<unk> <unk> <unk> ال<unk> ال<unk> <unk> <unk>ا<unk>ا <unk>ل, <unk> <unk>ا<unk>ا <unk> <unk>ا<unk>ال<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> ال<unk> ل<unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> 1990<unk> <unk>ا<unk>ا ال<unk>ال<unk> <unk> <unk> <unk>ا<unk> ال<unk>ال<unk> <unk>ا<unk> <unk> الا<unk>ا<unk>, <unk>ا <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk> <unk> ال<unk> <unk> <unk>ل<unk> ال<unk> الا<unk>ا<unk>.. <unk>ا<unk> ا<unk>ا<unk> ال<unk> <unk>الا<unk> <unk>ا<unk> <unk> ال<unk> <unk>ا<unk> <unk> <unk>ال<unk> <unk> ال<unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> ال<unk>ل<unk> ال<unk>ل<unk>ا <unk> <unk> <unk>ال<unk> <unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk> <unk> <unk>ا<unk>ا<unk> <unk> <unk> <unk> <unk>ال<unk> <unk>, <unk>ا <unk>ل<unk> ال<unk> ال<unk>ا<unk> ال<unk>.. <unk>ل<unk> ال<unk>ا<unk> <unk> <unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk> ال<unk> ال<unk> ال<unk> (<unk>) <unk>ل <unk>لا<unk> ال<unk> ال<unk> <unk> <unk>ا<unk> <unk> <unk> <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk>..",
24
+ "diff": [
25
+ "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> '<unk> <unk>ا <unk>ال<unk>'",
26
+ "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة و��عها الطبيعي' --> '<unk>ا <unk>ا <unk> <unk>ل<unk> <unk>ا<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk>ال<unk> <unk> ا<unk>ا<unk> <unk>ا ال<unk>'",
27
+ "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> '<unk> <unk>ا<unk>ا الا<unk>ا<unk> ال<unk> <unk>'",
28
+ "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> '<unk>ا<unk> ال<unk>ا<unk>'",
29
+ "replace text[150:151] --> decoded_text[231:236] 'م' --> '<unk>'",
30
+ "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '<unk>ل <unk> <unk> <unk> <unk> <unk>ا<unk> <unk>ا<unk>ا <unk>ل<unk>ا<unk> <unk> ل<unk>ا <unk>ل <unk>ل<unk> <unk>ال <unk>ا<unk>ا <unk> ا<unk>ال <unk> ا<unk>ا<unk>'",
31
+ "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> '<unk> ا<unk>ا<unk> <unk> <unk>ا الا<unk>ا<unk>'",
32
+ "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> '<unk> ا<unk>ا<unk> <unk> <unk> <unk>ا<unk>ا ل<unk>لا<unk>ا<unk> ال<unk> <unk>ل<unk>ا<unk>ا<unk>'",
33
+ "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> '<unk> <unk> ال<unk>ا<unk> ل<unk> <unk> <unk> ال<unk> ال<unk> <unk> <unk>ا<unk>ا <unk>'",
34
+ "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> '<unk> <unk>ا<unk>ا <unk> <unk>ا<unk>ال<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> ال<unk> ل<unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk>'",
35
+ "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '<unk> <unk>ا<unk>ا ال<unk>ال<unk> <unk> <unk> <unk>ا<unk> ال<unk>ال<unk> <unk>ا<unk> <unk> الا<unk>ا<unk>'",
36
+ "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> '<unk>ا <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk> <unk> ال<unk> <unk> <unk>ل<unk> ال<unk> الا<unk>ا<unk>'",
37
+ "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '<unk>ا<unk> ا<unk>ا<unk> ال<unk> <unk>الا<unk> <unk>ا<unk> <unk> ال<unk> <unk>ا<unk> <unk> <unk>ال<unk> <unk> ال<unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> ال<unk>ل<unk> ال<unk>ل<unk>ا <unk> <unk> <unk>ال<unk> <unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk> <unk> <unk>ا<unk>ا<unk> <unk> <unk> <unk> <unk>ال<unk> <unk>'",
38
+ "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> '<unk>ا <unk>ل<unk> ال<unk> ال<unk>ا<unk> ال<unk>'",
39
+ "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '<unk>ل<unk> ال<unk>ا<unk> <unk> <unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk> ال<unk> ال<unk> ال<unk>'",
40
+ "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> '<unk>'",
41
+ "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> '<unk>ل <unk>لا<unk> ال<unk> ال<unk> <unk> <unk>ا<unk> <unk> <unk> <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk>'"
42
+ ],
43
+ "n_oov_chars": 567,
44
+ "oov_ratio": 0.5869565217391305,
45
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]"
46
+ },
47
+ {
48
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
49
+ "decoded_text": "<unk>ال<unk> <unk> <unk> <unk> <unk>ا<unk> <unk> <unk> <unk> <unk> ال<unk>, <unk>ا <unk> ال<unk>ل<unk> <unk> <unk>ا<unk> <unk>, <unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل<unk> <unk>ا<unk> ال<unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk>ا<unk> ال<unk>ا<unk>, <unk> ا<unk>ا<unk>ا<unk> ال<unk>ا<unk> <unk> ال<unk>ل<unk> <unk> ال<unk>, <unk> <unk>ا <unk>ا<unk> <unk>ا <unk> <unk> <unk>ل ال<unk>ال<unk> <unk> <unk> <unk>الل<unk> <unk>ل<unk> <unk>ل ال<unk>ل<unk>ا<unk> <unk>ال<unk>ل<unk> <unk>ل<unk> <unk>ل<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ل <unk>ا<unk>..",
50
+ "diff": [
51
+ "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '<unk>ال<unk> <unk> <unk> <unk> <unk>ا<unk> <unk> <unk> <unk> <unk> ال<unk>'",
52
+ "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> '<unk>ا <unk> ال<unk>ل<unk> <unk> <unk>ا<unk> <unk>'",
53
+ "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل<unk> <unk>ا<unk> ال<unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk>ا<unk> ال<unk>ا<unk>'",
54
+ "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '<unk> ا<unk>ا<unk>ا<unk> ال<unk>ا<unk> <unk> ال<unk>ل<unk> <unk> ال<unk>'",
55
+ "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '<unk> <unk>ا <unk>ا<unk> <unk>ا <unk> <unk> <unk>ل ال<unk>ال<unk> <unk> <unk> <unk>الل<unk> <unk>ل<unk> <unk>ل ال<unk>ل<unk>ا<unk> <unk>ال<unk>ل<unk> <unk>ل<unk> <unk>ل<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ل <unk>ا<unk>'"
56
+ ],
57
+ "n_oov_chars": 208,
58
+ "oov_ratio": 0.6135693215339233,
59
+ "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]"
60
+ },
61
+ {
62
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
63
+ "decoded_text": "<unk>لا<unk> ال<unk>ل <unk>ا<unk> <unk>ا <unk> <unk>لا <unk> <unk> الل<unk>.. <unk> <unk> ال<unk>ل <unk>ا <unk>ال<unk> ال<unk>ل ال<unk> <unk> <unk>ل<unk> <unk>لا<unk> <unk> <unk>ل<unk> <unk>ا<unk>..",
64
+ "diff": [
65
+ "replace text[0:2] --> decoded_text[0:5] 'وك' --> '<unk>'",
66
+ "replace text[4:5] --> decoded_text[7:12] 'م' --> '<unk>'",
67
+ "replace text[8:11] --> decoded_text[15:20] 'رسو' --> '<unk>'",
68
+ "replace text[13:16] --> decoded_text[22:27] 'وأح' --> '<unk>'",
69
+ "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> '<unk>'",
70
+ "replace text[22:23] --> decoded_text[34:39] 'م' --> '<unk>'",
71
+ "replace text[25:27] --> decoded_text[41:46] 'هي' --> '<unk>'",
72
+ "replace text[28:29] --> decoded_text[47:52] 'إ' --> '<unk>'",
73
+ "replace text[32:35] --> decoded_text[55:60] 'وحي' --> '<unk>'",
74
+ "replace text[36:38] --> decoded_text[61:66] 'من' --> '<unk>'",
75
+ "replace text[42:43] --> decoded_text[70:75] 'ه' --> '<unk>'",
76
+ "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> '<unk>'",
77
+ "replace text[52:54] --> decoded_text[84:89] 'أن' --> '<unk>'",
78
+ "replace text[57:59] --> decoded_text[92:97] 'عم' --> '<unk>'",
79
+ "replace text[61:63] --> decoded_text[99:104] 'بم' --> '<unk>'",
80
+ "replace text[65:66] --> decoded_text[106:111] 'ق' --> '<unk>'",
81
+ "replace text[68:69] --> decoded_text[113:118] 'ه' --> '<unk>'",
82
+ "replace text[72:75] --> decoded_text[121:126] 'رسو' --> '<unk>'",
83
+ "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> '<unk>'",
84
+ "replace text[84:86] --> decoded_text[136:141] 'هو' --> '<unk>'",
85
+ "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> '<unk>'",
86
+ "replace text[92:94] --> decoded_text[148:153] 'ية' --> '<unk>'",
87
+ "replace text[95:97] --> decoded_text[154:159] 'أخ' --> '<unk>'",
88
+ "replace text[99:102] --> decoded_text[161:166] 'قية' --> '<unk>'",
89
+ "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> '<unk>'",
90
+ "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> '<unk>'",
91
+ "replace text[116:118] --> decoded_text[179:184] 'ية' --> '<unk>'",
92
+ "replace text[119:121] --> decoded_text[185:190] 'سي' --> '<unk>'",
93
+ "replace text[122:125] --> decoded_text[191:196] 'سية' --> '<unk>'"
94
+ ],
95
+ "n_oov_chars": 74,
96
+ "oov_ratio": 0.5826771653543307,
97
+ "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]"
98
+ },
99
+ {
100
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
101
+ "decoded_text": "<unk>ل <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ا<unk> <unk>, <unk>ل <unk> ال<unk> <unk> <unk>ل ال<unk> <unk>ال<unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ا <unk>ا <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> ال<unk>..",
102
+ "diff": [
103
+ "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> '<unk>ل <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ا<unk> <unk>'",
104
+ "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> '<unk>ل <unk> ال<unk> <unk> <unk>ل ال<unk> <unk>ال<unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ا <unk>ا <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> ال<unk>'"
105
+ ],
106
+ "n_oov_chars": 84,
107
+ "oov_ratio": 0.5874125874125874,
108
+ "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]"
109
+ },
110
+ {
111
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
112
+ "decoded_text": "<unk>ل الا<unk>ا<unk> <unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk> الا<unk>ا<unk>, <unk> <unk> الا<unk>ا<unk> <unk> <unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk> الل<unk> <unk>ل<unk> ال<unk> <unk>ل<unk> <unk>لا<unk> الل<unk> <unk>لا<unk> <unk>ل<unk> <unk>ل<unk>..",
113
+ "diff": [
114
+ "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> '<unk>ل الا<unk>ا<unk> <unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk> الا<unk>ا<unk>'",
115
+ "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> '<unk> <unk> الا<unk>ا<unk> <unk> <unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk> الل<unk> <unk>ل<unk> ال<unk> <unk>ل<unk> <unk>لا<unk> الل<unk> <unk>لا<unk> <unk>ل<unk> <unk>ل<unk>'"
116
+ ],
117
+ "n_oov_chars": 91,
118
+ "oov_ratio": 0.5796178343949044,
119
+ "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]"
120
+ },
121
+ {
122
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
123
+ "decoded_text": "<unk>ا لا ا<unk> <unk> <unk>ا<unk>لا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> <unk>ل <unk> <unk> <unk>ا <unk> <unk>.. <unk> <unk>ل ال<unk>- <unk> <unk>ل<unk> <unk>لا<unk> <unk>ال<unk>, <unk>ل<unk> <unk>لال, <unk> <unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk>ا, <unk>ل <unk>ال<unk> <unk>ا<unk> <unk>ل<unk>ا<unk> <unk> <unk> <unk>ل<unk> <unk> ل<unk>ا<unk>..",
124
+ "diff": [
125
+ "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يق��ل أو يستسيغ ما يجري فيه' --> '<unk>ا لا ا<unk> <unk> <unk>ا<unk>لا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> <unk>ل <unk> <unk> <unk>ا <unk> <unk>'",
126
+ "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> '<unk> <unk>ل ال<unk>'",
127
+ "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> '<unk> <unk>ل<unk> <unk>لا<unk> <unk>ال<unk>'",
128
+ "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> '<unk>ل<unk> <unk>'",
129
+ "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> '<unk> <unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk>'",
130
+ "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> '<unk>ل <unk>ال<unk> <unk>ا<unk> <unk>ل<unk>ا<unk> <unk> <unk> <unk>ل<unk> <unk> ل<unk>ا<unk>'"
131
+ ],
132
+ "n_oov_chars": 132,
133
+ "oov_ratio": 0.584070796460177,
134
+ "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]"
135
+ },
136
+ {
137
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
138
+ "decoded_text": "ال<unk> <unk> <unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> <unk> <unk>ل<unk> ال<unk> <unk> <unk> <unk> <unk> ال<unk>ا<unk> ال<unk>ا<unk> لل<unk>ا<unk>, ل<unk> <unk>ل<unk>ا <unk>ل<unk> <unk>ل<unk>ا.. <unk>ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ال<unk> ال<unk>, <unk> <unk>ل ال<unk> <unk>الا<unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk>ل <unk> <unk>ا<unk>ا<unk> <unk>ا<unk> <unk>ل <unk>لا<unk> ال<unk>ال ال<unk> <unk>لا<unk> <unk> <unk>ل, <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk> ال<unk>ل<unk> <unk>ل <unk>ا<unk> <unk>ا ال<unk> <unk> <unk>ل<unk> ل<unk> <unk>ا<unk> <unk> ال<unk>ا<unk> <unk> ال<unk>, <unk> <unk>..<unk>!",
139
+ "diff": [
140
+ "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '<unk> <unk> <unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> <unk> <unk>ل<unk> ال<unk> <unk> <unk> <unk> <unk> ال<unk>ا<unk> ال<unk>ا<unk> لل<unk>ا<unk>'",
141
+ "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> '<unk> <unk>ل<unk>ا <unk>ل<unk> <unk>ل<unk>'",
142
+ "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> '<unk>ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ال<unk> ال<unk>'",
143
+ "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> '<unk> <unk>ل ال<unk> <unk>الا<unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk>ل <unk> <unk>ا<unk>ا<unk> <unk>ا<unk> <unk>ل <unk>لا<unk> ال<unk>ال ال<unk> <unk>لا<unk> <unk> <unk>'",
144
+ "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '<unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk> ال<unk>ل<unk> <unk>ل <unk>ا<unk> <unk>ا ال<unk> <unk> <unk>ل<unk> ل<unk> <unk>ا<unk> <unk> ال<unk>ا<unk> <unk> ال<unk>'",
145
+ "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> '<unk> <unk>'",
146
+ "replace text[405:406] --> decoded_text[648:653] '؟' --> '<unk>'"
147
+ ],
148
+ "n_oov_chars": 243,
149
+ "oov_ratio": 0.597051597051597,
150
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]"
151
+ },
152
+ {
153
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
154
+ "decoded_text": "<unk>ل ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk>ل<unk> <unk>ل<unk>ا <unk> <unk>ا<unk> ال<unk> <unk> <unk> <unk>ل<unk> <unk> <unk> <unk>ا<unk> ل<unk> <unk> <unk> <unk> <unk>لا<unk>.. <unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk> ال<unk>ا<unk>ا<unk> <unk> <unk>ا<unk> <unk> <unk>ل <unk>!!",
155
+ "diff": [
156
+ "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '<unk>ل ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk>ل<unk> <unk>ل<unk>ا <unk> <unk>ا<unk> ال<unk> <unk> <unk> <unk>ل<unk> <unk> <unk> <unk>ا<unk> ل<unk> <unk> <unk> <unk> <unk>لا<unk>'",
157
+ "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk> ال<unk>ا<unk>ا<unk> <unk> <unk>ا<unk> <unk> <unk>ل <unk>'"
158
+ ],
159
+ "n_oov_chars": 156,
160
+ "oov_ratio": 0.631578947368421,
161
+ "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]"
162
+ },
163
+ {
164
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
165
+ "decoded_text": "ال<unk>.. <unk> <unk> الل<unk> ال<unk>ا<unk>.. <unk> <unk> ال<unk>ل<unk> ال<unk> <unk>, <unk>ا<unk>, <unk>ا<unk> <unk>ل<unk>ا <unk>ا<unk>ا.. ال<unk> <unk>ا<unk>ا ل<unk> الا<unk>ا<unk> <unk>ا<unk>لا<unk>ا الل<unk> <unk>ا<unk>ا<unk> <unk> <unk>ا <unk> <unk> <unk>, <unk> ال<unk>ا<unk>, <unk> <unk>ا<unk>..",
166
+ "diff": [
167
+ "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '<unk>.. <unk> <unk> الل<unk> ال<unk>ا<unk>.. <unk> <unk> ال<unk>ل<unk> ال<unk> <unk>'",
168
+ "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> '<unk>ا<unk>'",
169
+ "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> '<unk>ا<unk> <unk>ل<unk>ا <unk>ا<unk>ا.. ال<unk> <unk>ا<unk>ا ل<unk> الا<unk>ا<unk> <unk>ا<unk>لا<unk>ا الل<unk> <unk>ا<unk>ا<unk> <unk> <unk>ا <unk> <unk> <unk>'",
170
+ "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> '<unk> ال<unk>ا<unk>'",
171
+ "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> '<unk> <unk>ا<unk>..'"
172
+ ],
173
+ "n_oov_chars": 111,
174
+ "oov_ratio": 0.5721649484536082,
175
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]"
176
+ }
177
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.de.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
4
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die <unk>Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 <unk> ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
5
+ "diff": [
6
+ "replace text[58:59] --> decoded_text[58:63] '„' --> '<unk>'",
7
+ "replace text[202:203] --> decoded_text[206:211] '€' --> '<unk>'"
8
+ ],
9
+ "n_oov_chars": 2,
10
+ "oov_ratio": 0.007142857142857143,
11
+ "oov_charset": "[\"„\", \"€\"]"
12
+ },
13
+ {
14
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
15
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der <unk>Püngel-Weihnacht“ an.",
16
+ "diff": [
17
+ "replace text[57:58] --> decoded_text[57:62] '„' --> '<unk>'"
18
+ ],
19
+ "n_oov_chars": 1,
20
+ "oov_ratio": 0.012658227848101266,
21
+ "oov_charset": "[\"„\"]"
22
+ },
23
+ {
24
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
25
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie<unk>lich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
26
+ "diff": [
27
+ "replace text[619:620] --> decoded_text[619:624] 'ß' --> '<unk>'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.0014749262536873156,
31
+ "oov_charset": "[\"ß\"]"
32
+ },
33
+ {
34
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
35
+ "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie<unk>en, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
36
+ "diff": [
37
+ "replace text[61:62] --> decoded_text[61:66] 'ß' --> '<unk>'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.0022624434389140274,
41
+ "oov_charset": "[\"ß\"]"
42
+ },
43
+ {
44
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
45
+ "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie<unk>lich zu Zwecken,",
46
+ "diff": [
47
+ "replace text[64:65] --> decoded_text[64:69] 'ß' --> '<unk>'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.012345679012345678,
51
+ "oov_charset": "[\"ß\"]"
52
+ },
53
+ {
54
+ "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
55
+ "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmä<unk>ig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
56
+ "diff": [
57
+ "replace text[131:132] --> decoded_text[131:136] 'ß' --> '<unk>'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.0018867924528301887,
61
+ "oov_charset": "[\"ß\"]"
62
+ },
63
+ {
64
+ "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.",
65
+ "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis au<unk>er diesem Thread hier. Finde ich auch ein bisschen komisch.",
66
+ "diff": [
67
+ "replace text[125:126] --> decoded_text[125:130] 'ß' --> '<unk>'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.005405405405405406,
71
+ "oov_charset": "[\"ß\"]"
72
+ },
73
+ {
74
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
75
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
76
+ "diff": [
77
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
85
+ "decoded_text": "Wei<unk> man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
86
+ "diff": [
87
+ "replace text[3:4] --> decoded_text[3:8] 'ß' --> '<unk>'"
88
+ ],
89
+ "n_oov_chars": 1,
90
+ "oov_ratio": 0.007874015748031496,
91
+ "oov_charset": "[\"ß\"]"
92
+ },
93
+ {
94
+ "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
95
+ "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note <unk>Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
96
+ "diff": [
97
+ "replace text[132:133] --> decoded_text[132:137] '„' --> '<unk>'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.0036363636363636364,
101
+ "oov_charset": "[\"„\"]"
102
+ }
103
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.en.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.",
4
+ "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about <unk>1.50.",
5
+ "diff": [
6
+ "replace text[249:250] --> decoded_text[249:254] '£' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.00392156862745098,
10
+ "oov_charset": "[\"£\"]"
11
+ },
12
+ {
13
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
14
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
15
+ "diff": [
16
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
24
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
25
+ "diff": [
26
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
34
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
35
+ "diff": [
36
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
44
+ "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
45
+ "diff": [
46
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
47
+ ],
48
+ "n_oov_chars": 1,
49
+ "oov_ratio": 0.005813953488372093,
50
+ "oov_charset": "[\"​\"]"
51
+ },
52
+ {
53
+ "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
54
+ "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
55
+ "diff": [
56
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
57
+ ],
58
+ "n_oov_chars": 1,
59
+ "oov_ratio": 0.005405405405405406,
60
+ "oov_charset": "[\"​\"]"
61
+ },
62
+ {
63
+ "text": "Would love some tatts, but too much of a wimp to get them! 😥",
64
+ "decoded_text": "Would love some tatts, but too much of a wimp to get them! <unk>",
65
+ "diff": [
66
+ "replace text[59:60] --> decoded_text[59:64] '😥' --> '<unk>'"
67
+ ],
68
+ "n_oov_chars": 1,
69
+ "oov_ratio": 0.016666666666666666,
70
+ "oov_charset": "[\"😥\"]"
71
+ },
72
+ {
73
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
74
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
75
+ "diff": [
76
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
84
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
85
+ "diff": [
86
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
94
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
95
+ "diff": [
96
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.es.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "el año natural a que correspondan.",
4
+ "decoded_text": "el a<unk>o natural a que correspondan.",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.029411764705882353,
10
+ "oov_charset": "[\"ñ\"]"
11
+ },
12
+ {
13
+ "text": "a la Empresa el 50% del periodo restante en la fecha señalada",
14
+ "decoded_text": "a la Empresa el 50% del periodo restante en la fecha se<unk>alada",
15
+ "diff": [
16
+ "replace text[55:56] --> decoded_text[55:60] 'ñ' --> '<unk>'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.01639344262295082,
20
+ "oov_charset": "[\"ñ\"]"
21
+ },
22
+ {
23
+ "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.",
24
+ "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los a<unk>os que están por venir.",
25
+ "diff": [
26
+ "replace text[76:77] --> decoded_text[76:81] 'ñ' --> '<unk>'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.01,
30
+ "oov_charset": "[\"ñ\"]"
31
+ },
32
+ {
33
+ "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
34
+ "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
35
+ "diff": [
36
+ "replace text[77:78] --> decoded_text[77:80] '…' --> '...'",
37
+ "replace text[91:92] --> decoded_text[93:96] '…' --> '...'"
38
+ ],
39
+ "n_oov_chars": 2,
40
+ "oov_ratio": 0.01098901098901099,
41
+ "oov_charset": "[\"…\"]"
42
+ },
43
+ {
44
+ "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.",
45
+ "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.",
46
+ "diff": [
47
+ "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.0033444816053511705,
51
+ "oov_charset": "[\"…\"]"
52
+ },
53
+ {
54
+ "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
55
+ "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... <unk>Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un ni<unk>o pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
56
+ "diff": [
57
+ "delete text[206:207] --> decoded_text[206:206] '…' --> ''",
58
+ "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... <unk>'",
59
+ "replace text[313:314] --> decoded_text[317:322] 'ñ' --> '<unk>'"
60
+ ],
61
+ "n_oov_chars": 5,
62
+ "oov_ratio": 0.007246376811594203,
63
+ "oov_charset": "[\"…\", \"¡\", \"ñ\"]"
64
+ },
65
+ {
66
+ "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
67
+ "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.",
68
+ "diff": [
69
+ "replace text[80:81] --> decoded_text[80:83] '…' --> '...'",
70
+ "replace text[233:235] --> decoded_text[235:241] '……' --> '......'"
71
+ ],
72
+ "n_oov_chars": 3,
73
+ "oov_ratio": 0.010526315789473684,
74
+ "oov_charset": "[\"…\"]"
75
+ },
76
+ {
77
+ "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.",
78
+ "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.",
79
+ "diff": [
80
+ "replace text[167:168] --> decoded_text[167:170] '…' --> '...'"
81
+ ],
82
+ "n_oov_chars": 1,
83
+ "oov_ratio": 0.0049261083743842365,
84
+ "oov_charset": "[\"…\"]"
85
+ },
86
+ {
87
+ "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.",
88
+ "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.",
89
+ "diff": [
90
+ "replace text[66:67] --> decoded_text[66:69] '…' --> '...'"
91
+ ],
92
+ "n_oov_chars": 1,
93
+ "oov_ratio": 0.01,
94
+ "oov_charset": "[\"…\"]"
95
+ },
96
+ {
97
+ "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
98
+ "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo a<unk>o, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
99
+ "diff": [
100
+ "replace text[63:64] --> decoded_text[63:68] 'ñ' --> '<unk>'"
101
+ ],
102
+ "n_oov_chars": 1,
103
+ "oov_ratio": 0.003125,
104
+ "oov_charset": "[\"ñ\"]"
105
+ }
106
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fa.diff.json ADDED
@@ -0,0 +1,180 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "آشپزخانه کوچک من: February 2012",
4
+ "decoded_text": "<unk>ا<unk> <unk> <unk>: February 2012",
5
+ "diff": [
6
+ "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> '<unk>'",
7
+ "replace text[6:8] --> decoded_text[6:11] 'نه' --> '<unk>'",
8
+ "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> '<unk>'",
9
+ "replace text[14:16] --> decoded_text[18:23] 'من' --> '<unk>'"
10
+ ],
11
+ "n_oov_chars": 13,
12
+ "oov_ratio": 0.41935483870967744,
13
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]"
14
+ },
15
+ {
16
+ "text": "آشپزخانه کوچک من",
17
+ "decoded_text": "<unk>ا<unk> <unk> <unk>",
18
+ "diff": [
19
+ "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> '<unk>'",
20
+ "replace text[6:8] --> decoded_text[6:11] 'نه' --> '<unk>'",
21
+ "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> '<unk>'",
22
+ "replace text[14:16] --> decoded_text[18:23] 'من' --> '<unk>'"
23
+ ],
24
+ "n_oov_chars": 13,
25
+ "oov_ratio": 0.8125,
26
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]"
27
+ },
28
+ {
29
+ "text": "بکینگ پودر:2 قاشق چای خوری",
30
+ "decoded_text": "<unk> <unk>:2 <unk>ا<unk> <unk>ا<unk> <unk>",
31
+ "diff": [
32
+ "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '<unk>'",
33
+ "replace text[6:10] --> decoded_text[6:11] 'پودر' --> '<unk>'",
34
+ "replace text[13:14] --> decoded_text[14:19] 'ق' --> '<unk>'",
35
+ "replace text[15:17] --> decoded_text[20:25] 'شق' --> '<unk>'",
36
+ "replace text[18:19] --> decoded_text[26:31] 'چ' --> '<unk>'",
37
+ "replace text[20:21] --> decoded_text[32:37] 'ی' --> '<unk>'",
38
+ "replace text[22:26] --> decoded_text[38:43] 'خوری' --> '<unk>'"
39
+ ],
40
+ "n_oov_chars": 18,
41
+ "oov_ratio": 0.6923076923076923,
42
+ "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]"
43
+ },
44
+ {
45
+ "text": "تخم مرغ:2 عدد بزرگ",
46
+ "decoded_text": "<unk> <unk>:2 <unk> <unk>",
47
+ "diff": [
48
+ "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '<unk>'",
49
+ "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> '<unk>'",
50
+ "replace text[10:13] --> decoded_text[14:19] 'عدد' --> '<unk>'",
51
+ "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '<unk>'"
52
+ ],
53
+ "n_oov_chars": 13,
54
+ "oov_ratio": 0.7222222222222222,
55
+ "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]"
56
+ },
57
+ {
58
+ "text": "کره:225 گرم به دمای اتاق رسیده",
59
+ "decoded_text": "<unk>:225 <unk> <unk> <unk>ا<unk> ا<unk>ا<unk> <unk>",
60
+ "diff": [
61
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '<unk>'",
62
+ "replace text[8:11] --> decoded_text[10:15] 'گرم' --> '<unk>'",
63
+ "replace text[12:14] --> decoded_text[16:21] 'به' --> '<unk>'",
64
+ "replace text[15:17] --> decoded_text[22:27] 'دم' --> '<unk>'",
65
+ "replace text[18:19] --> decoded_text[28:33] 'ی' --> '<unk>'",
66
+ "replace text[21:22] --> decoded_text[35:40] 'ت' --> '<unk>'",
67
+ "replace text[23:24] --> decoded_text[41:46] 'ق' --> '<unk>'",
68
+ "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> '<unk>'"
69
+ ],
70
+ "n_oov_chars": 18,
71
+ "oov_ratio": 0.6,
72
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]"
73
+ },
74
+ {
75
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
76
+ "decoded_text": "<unk>:1<unk>1/2 <unk>ا<unk>+ 3 <unk>ا<unk> <unk>ا <unk>",
77
+ "diff": [
78
+ "replace text[0:3] --> decoded_text[0:5] 'شکر' --> '<unk>'",
79
+ "replace text[5:6] --> decoded_text[7:12] 'و' --> '<unk>'",
80
+ "replace text[10:13] --> decoded_text[16:21] 'پیم' --> '<unk>'",
81
+ "replace text[14:16] --> decoded_text[22:27] 'نه' --> '<unk>'",
82
+ "replace text[20:21] --> decoded_text[31:36] 'ق' --> '<unk>'",
83
+ "replace text[22:24] --> decoded_text[37:42] 'شق' --> '<unk>'",
84
+ "replace text[25:27] --> decoded_text[43:48] 'غذ' --> '<unk>'",
85
+ "replace text[29:33] --> decoded_text[50:55] 'خوری' --> '<unk>'"
86
+ ],
87
+ "n_oov_chars": 18,
88
+ "oov_ratio": 0.5454545454545454,
89
+ "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]"
90
+ },
91
+ {
92
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
93
+ "decoded_text": "<unk> <unk>ا<unk>:2 <unk>1/2<unk>ا<unk> <unk>ا<unk> <unk>",
94
+ "diff": [
95
+ "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '<unk>'",
96
+ "replace text[5:6] --> decoded_text[6:11] 'د' --> '<unk>'",
97
+ "replace text[7:11] --> decoded_text[12:17] 'رچین' --> '<unk>'",
98
+ "replace text[14:15] --> decoded_text[20:25] 'و' --> '<unk>'",
99
+ "replace text[18:19] --> decoded_text[28:33] 'ق' --> '<unk>'",
100
+ "replace text[20:22] --> decoded_text[34:39] 'شق' --> '<unk>'",
101
+ "replace text[23:24] --> decoded_text[40:45] 'چ' --> '<unk>'",
102
+ "replace text[25:26] --> decoded_text[46:51] 'ی' --> '<unk>'",
103
+ "replace text[27:31] --> decoded_text[52:57] 'خوری' --> '<unk>'"
104
+ ],
105
+ "n_oov_chars": 19,
106
+ "oov_ratio": 0.6129032258064516,
107
+ "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]"
108
+ },
109
+ {
110
+ "text": "فر رو روی 350 درجه فارنهایت روشن کنید",
111
+ "decoded_text": "<unk> <unk> <unk> 350 <unk> <unk>ا<unk>ا<unk> <unk> <unk>",
112
+ "diff": [
113
+ "replace text[0:2] --> decoded_text[0:5] 'فر' --> '<unk>'",
114
+ "replace text[3:5] --> decoded_text[6:11] 'رو' --> '<unk>'",
115
+ "replace text[6:9] --> decoded_text[12:17] 'روی' --> '<unk>'",
116
+ "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '<unk>'",
117
+ "replace text[19:20] --> decoded_text[28:33] 'ف' --> '<unk>'",
118
+ "replace text[21:24] --> decoded_text[34:39] 'رنه' --> '<unk>'",
119
+ "replace text[25:27] --> decoded_text[40:45] 'یت' --> '<unk>'",
120
+ "replace text[28:32] --> decoded_text[46:51] 'روشن' --> '<unk>'",
121
+ "replace text[33:37] --> decoded_text[52:57] 'کنید' --> '<unk>'"
122
+ ],
123
+ "n_oov_chars": 25,
124
+ "oov_ratio": 0.6756756756756757,
125
+ "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]"
126
+ },
127
+ {
128
+ "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید",
129
+ "decoded_text": "<unk> <unk> <unk>ا <unk> <unk> <unk> <unk>ا <unk> <unk> <unk> <unk> <unk> <unk>ا <unk> <unk> <unk> ا<unk>ا<unk> <unk> <unk> <unk> <unk>",
130
+ "diff": [
131
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '<unk>'",
132
+ "replace text[4:6] --> decoded_text[6:11] 'رو' --> '<unk>'",
133
+ "replace text[7:8] --> decoded_text[12:17] 'ب' --> '<unk>'",
134
+ "replace text[10:13] --> decoded_text[19:24] 'شکر' --> '<unk>'",
135
+ "replace text[14:16] --> decoded_text[25:30] 'هم' --> '<unk>'",
136
+ "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> '<unk>'",
137
+ "replace text[23:24] --> decoded_text[37:42] 'ت' --> '<unk>'",
138
+ "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> '<unk>'",
139
+ "replace text[32:33] --> decoded_text[50:55] 'و' --> '<unk>'",
140
+ "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> '<unk>'",
141
+ "replace text[39:42] --> decoded_text[62:67] 'بشه' --> '<unk>'",
142
+ "replace text[43:46] --> decoded_text[68:73] 'تخم' --> '<unk>'",
143
+ "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> '<unk>'",
144
+ "replace text[53:55] --> decoded_text[81:86] 'رو' --> '<unk>'",
145
+ "replace text[56:60] --> decoded_text[87:92] 'دونه' --> '<unk>'",
146
+ "replace text[61:65] --> decoded_text[93:98] 'دونه' --> '<unk>'",
147
+ "replace text[67:68] --> decoded_text[100:105] 'ض' --> '<unk>'",
148
+ "replace text[69:71] --> decoded_text[106:111] 'فه' --> '<unk>'",
149
+ "replace text[72:76] --> decoded_text[112:117] 'کنید' --> '<unk>'",
150
+ "replace text[77:78] --> decoded_text[118:123] 'و' --> '<unk>'",
151
+ "replace text[79:81] --> decoded_text[124:129] 'هم' --> '<unk>'",
152
+ "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> '<unk>'"
153
+ ],
154
+ "n_oov_chars": 62,
155
+ "oov_ratio": 0.7126436781609196,
156
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]"
157
+ },
158
+ {
159
+ "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید",
160
+ "decoded_text": "ا<unk> <unk> <unk> <unk> <unk> <unk> <unk> ال<unk> <unk> <unk> ا<unk>ا<unk> <unk>",
161
+ "diff": [
162
+ "replace text[1:3] --> decoded_text[1:6] 'رد' --> '<unk>'",
163
+ "replace text[4:5] --> decoded_text[7:12] 'و' --> '<unk>'",
164
+ "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> '<unk>'",
165
+ "replace text[12:16] --> decoded_text[19:24] 'پودر' --> '<unk>'",
166
+ "replace text[17:18] --> decoded_text[25:30] 'و' --> '<unk>'",
167
+ "replace text[19:22] --> decoded_text[31:36] 'نمک' --> '<unk>'",
168
+ "replace text[23:25] --> decoded_text[37:42] 'رو' --> '<unk>'",
169
+ "replace text[28:29] --> decoded_text[45:50] 'ک' --> '<unk>'",
170
+ "replace text[30:34] --> decoded_text[51:56] 'کنید' --> '<unk>'",
171
+ "replace text[35:36] --> decoded_text[57:62] 'و' --> '<unk>'",
172
+ "replace text[38:39] --> decoded_text[64:69] 'ض' --> '<unk>'",
173
+ "replace text[40:42] --> decoded_text[70:75] 'فه' --> '<unk>'",
174
+ "replace text[43:47] --> decoded_text[76:81] 'کنید' --> '<unk>'"
175
+ ],
176
+ "n_oov_chars": 31,
177
+ "oov_ratio": 0.6595744680851063,
178
+ "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]"
179
+ }
180
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.fr.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
4
+ "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut <unk>tre temps de le commencer.",
5
+ "diff": [
6
+ "replace text[102:103] --> decoded_text[102:107] 'ê' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.007751937984496124,
10
+ "oov_charset": "[\"ê\"]"
11
+ },
12
+ {
13
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
14
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
15
+ "diff": [
16
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "- Je dois être mentalement instable, par moments",
24
+ "decoded_text": "- Je dois <unk>tre mentalement instable, par moments",
25
+ "diff": [
26
+ "replace text[10:11] --> decoded_text[10:15] 'ê' --> '<unk>'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.020833333333333332,
30
+ "oov_charset": "[\"ê\"]"
31
+ },
32
+ {
33
+ "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie",
34
+ "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en m<unk>me temps très étourdie",
35
+ "diff": [
36
+ "replace text[164:165] --> decoded_text[164:169] 'ê' --> '<unk>'"
37
+ ],
38
+ "n_oov_chars": 1,
39
+ "oov_ratio": 0.0053475935828877,
40
+ "oov_charset": "[\"ê\"]"
41
+ },
42
+ {
43
+ "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
44
+ "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d<unk> me garder une heure en plus pour m'expliquer des démonstrations)",
45
+ "diff": [
46
+ "replace text[164:165] --> decoded_text[164:169] 'û' --> '<unk>'"
47
+ ],
48
+ "n_oov_chars": 1,
49
+ "oov_ratio": 0.004347826086956522,
50
+ "oov_charset": "[\"û\"]"
51
+ },
52
+ {
53
+ "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)",
54
+ "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand m<unk>me)",
55
+ "diff": [
56
+ "replace text[163:164] --> decoded_text[163:168] 'ê' --> '<unk>'"
57
+ ],
58
+ "n_oov_chars": 1,
59
+ "oov_ratio": 0.005988023952095809,
60
+ "oov_charset": "[\"ê\"]"
61
+ },
62
+ {
63
+ "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
64
+ "decoded_text": "- je préfère largement passer du temps avec les gens de mon <unk>ge ou plus ou moins (généralement pas mon <unk>ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
65
+ "diff": [
66
+ "replace text[60:61] --> decoded_text[60:65] 'â' --> '<unk>'",
67
+ "replace text[103:104] --> decoded_text[107:112] 'â' --> '<unk>'"
68
+ ],
69
+ "n_oov_chars": 2,
70
+ "oov_ratio": 0.011363636363636364,
71
+ "oov_charset": "[\"â\"]"
72
+ },
73
+ {
74
+ "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens",
75
+ "decoded_text": "- j'aime chanter, faire du thé<unk>tre et provoquer des émotions chez les gens",
76
+ "diff": [
77
+ "replace text[30:31] --> decoded_text[30:35] 'â' --> '<unk>'"
78
+ ],
79
+ "n_oov_chars": 1,
80
+ "oov_ratio": 0.013513513513513514,
81
+ "oov_charset": "[\"â\"]"
82
+ },
83
+ {
84
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
85
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère <unk>tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconna<unk>tre quand j'ai tort",
86
+ "diff": [
87
+ "replace text[49:50] --> decoded_text[49:54] 'ê' --> '<unk>'",
88
+ "delete text[150:151] --> decoded_text[154:154] ' ' --> ''",
89
+ "replace text[170:171] --> decoded_text[173:178] 'î' --> '<unk>'"
90
+ ],
91
+ "n_oov_chars": 2,
92
+ "oov_ratio": 0.010526315789473684,
93
+ "oov_charset": "[\"ê\", \"î\"]"
94
+ },
95
+ {
96
+ "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent",
97
+ "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des <unk>tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-<unk>tre trop bien que tout le monde est différent",
98
+ "diff": [
99
+ "replace text[90:91] --> decoded_text[90:95] 'ê' --> '<unk>'",
100
+ "replace text[187:188] --> decoded_text[191:196] 'ê' --> '<unk>'"
101
+ ],
102
+ "n_oov_chars": 2,
103
+ "oov_ratio": 0.008583690987124463,
104
+ "oov_charset": "[\"ê\"]"
105
+ }
106
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ja.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
4
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
5
+ "diff": [
6
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.02702702702702703,
10
+ "oov_charset": "[\"!\"]"
11
+ },
12
+ {
13
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
14
+ "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整<unk>されてる<unk>央道を越えるとお世話になってるボウリング場が見えて来ました。",
15
+ "diff": [
16
+ "replace text[31:32] --> decoded_text[31:36] '備' --> '<unk>'",
17
+ "replace text[36:37] --> decoded_text[40:45] '圏' --> '<unk>'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.029850746268656716,
21
+ "oov_charset": "[\"備\", \"圏\"]"
22
+ },
23
+ {
24
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
25
+ "decoded_text": "う<unk>〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
26
+ "diff": [
27
+ "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> '<unk>'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.021739130434782608,
31
+ "oov_charset": "[\"ぅ\"]"
32
+ },
33
+ {
34
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
35
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
36
+ "diff": [
37
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.02040816326530612,
41
+ "oov_charset": "[\"1\"]"
42
+ },
43
+ {
44
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
45
+ "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの<unk>断をもらっていました。",
46
+ "diff": [
47
+ "replace text[31:32] --> decoded_text[31:36] '診' --> '<unk>'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.023255813953488372,
51
+ "oov_charset": "[\"診\"]"
52
+ },
53
+ {
54
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
55
+ "decoded_text": "ただ、これまでお散<unk>仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
56
+ "diff": [
57
+ "replace text[9:10] --> decoded_text[9:14] '歩' --> '<unk>'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.016666666666666666,
61
+ "oov_charset": "[\"歩\"]"
62
+ },
63
+ {
64
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
65
+ "decoded_text": "昔はヒアルロン酸の目<unk>なども<unk>方されてたようですが、これが<unk>く事はないそうです。",
66
+ "diff": [
67
+ "replace text[10:11] --> decoded_text[10:15] '薬' --> '<unk>'",
68
+ "replace text[14:15] --> decoded_text[18:23] '処' --> '<unk>'",
69
+ "replace text[29:30] --> decoded_text[37:42] '効' --> '<unk>'"
70
+ ],
71
+ "n_oov_chars": 3,
72
+ "oov_ratio": 0.075,
73
+ "oov_charset": "[\"薬\", \"処\", \"効\"]"
74
+ },
75
+ {
76
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
77
+ "decoded_text": "なので、エルディとのお散<unk>でも<unk>れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
78
+ "diff": [
79
+ "replace text[12:13] --> decoded_text[12:17] '歩' --> '<unk>'",
80
+ "replace text[15:16] --> decoded_text[19:24] '訪' --> '<unk>'",
81
+ "replace text[35:36] --> decoded_text[43:44] '5' --> '5'",
82
+ "replace text[51:52] --> decoded_text[59:60] '1' --> '1'"
83
+ ],
84
+ "n_oov_chars": 4,
85
+ "oov_ratio": 0.0625,
86
+ "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]"
87
+ },
88
+ {
89
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さ��がものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
90
+ "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで<unk>け<unk>けていくのを目の当たりにしてちょっとビビっておりました",
91
+ "diff": [
92
+ "replace text[41:42] --> decoded_text[41:46] '駆' --> '<unk>'",
93
+ "replace text[43:44] --> decoded_text[47:52] '抜' --> '<unk>'"
94
+ ],
95
+ "n_oov_chars": 2,
96
+ "oov_ratio": 0.028169014084507043,
97
+ "oov_charset": "[\"駆\", \"抜\"]"
98
+ },
99
+ {
100
+ "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
101
+ "decoded_text": "彼らには<unk>対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
102
+ "diff": [
103
+ "replace text[4:5] --> decoded_text[4:9] '絶' --> '<unk>'"
104
+ ],
105
+ "n_oov_chars": 1,
106
+ "oov_ratio": 0.025,
107
+ "oov_charset": "[\"絶\"]"
108
+ }
109
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.ko.diff.json ADDED
@@ -0,0 +1,255 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "+ HOME > 라이브스코어",
4
+ "decoded_text": "+ HOME > <unk>",
5
+ "diff": [
6
+ "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 6,
9
+ "oov_ratio": 0.4,
10
+ "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
11
+ },
12
+ {
13
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
14
+ "decoded_text": "<unk> <unk> 15~17<unk> <unk> 3<unk> <unk> <unk> <unk>.",
15
+ "diff": [
16
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '<unk>'",
17
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '<unk>'",
18
+ "replace text[11:12] --> decoded_text[17:22] '번' --> '<unk>'",
19
+ "replace text[13:16] --> decoded_text[23:28] '홀에선' --> '<unk>'",
20
+ "replace text[18:20] --> decoded_text[30:35] '연속' --> '<unk>'",
21
+ "replace text[21:24] --> decoded_text[36:41] '보기로' --> '<unk>'",
22
+ "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> '<unk>'",
23
+ "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> '<unk>'"
24
+ ],
25
+ "n_oov_chars": 26,
26
+ "oov_ratio": 0.65,
27
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
28
+ },
29
+ {
30
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
31
+ "decoded_text": "1<unk>'<unk>-<unk> <unk>'<unk> <unk> <unk> <unk> 2<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
32
+ "diff": [
33
+ "replace text[1:3] --> decoded_text[1:6] '편인' --> '<unk>'",
34
+ "replace text[4:8] --> decoded_text[7:12] '신과함께' --> '<unk>'",
35
+ "replace text[9:11] --> decoded_text[13:18] '죄와' --> '<unk>'",
36
+ "replace text[12:13] --> decoded_text[19:24] '벌' --> '<unk>'",
37
+ "replace text[14:15] --> decoded_text[25:30] '이' --> '<unk>'",
38
+ "replace text[16:19] --> decoded_text[31:36] '천만을' --> '<unk>'",
39
+ "replace text[20:22] --> decoded_text[37:42] '넘은' --> '<unk>'",
40
+ "replace text[23:25] --> decoded_text[43:48] '만큼' --> '<unk>'",
41
+ "replace text[27:29] --> decoded_text[50:55] '편을' --> '<unk>'",
42
+ "replace text[30:33] --> decoded_text[56:61] '기다린' --> '<unk>'",
43
+ "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '<unk>'",
44
+ "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '<unk>'",
45
+ "replace text[48:51] --> decoded_text[74:79] '기대와' --> '<unk>'",
46
+ "replace text[52:54] --> decoded_text[80:85] '주소' --> '<unk>'",
47
+ "replace text[55:58] --> decoded_text[86:91] '관심은' --> '<unk>'",
48
+ "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '<unk>'"
49
+ ],
50
+ "n_oov_chars": 47,
51
+ "oov_ratio": 0.7230769230769231,
52
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
53
+ },
54
+ {
55
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
56
+ "decoded_text": "<unk> <unk> '<unk> <unk>'<unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
57
+ "diff": [
58
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '<unk>'",
59
+ "replace text[5:7] --> decoded_text[6:11] '주소' --> '<unk>'",
60
+ "replace text[9:12] --> decoded_text[13:18] '대체재' --> '<unk>'",
61
+ "replace text[13:15] --> decoded_text[19:24] '일색' --> '<unk>'",
62
+ "replace text[16:17] --> decoded_text[25:30] '의' --> '<unk>'",
63
+ "replace text[18:21] --> decoded_text[31:36] '분재를' --> '<unk>'",
64
+ "replace text[22:25] --> decoded_text[37:42] '내놓을' --> '<unk>'",
65
+ "replace text[26:29] --> decoded_text[43:48] '위험이' --> '<unk>'",
66
+ "replace text[30:32] --> decoded_text[49:54] '있다' --> '<unk>'",
67
+ "replace text[34:37] --> decoded_text[56:61] '문학의' --> '<unk>'",
68
+ "replace text[38:41] --> decoded_text[62:67] '자유를' --> '<unk>'",
69
+ "replace text[42:46] --> decoded_text[68:73] '소설가가' --> '<unk>'",
70
+ "replace text[47:50] --> decoded_text[74:79] '스스로' --> '<unk>'",
71
+ "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> '<unk>'",
72
+ "replace text[60:64] --> decoded_text[86:91] '출판사에' --> '<unk>'",
73
+ "replace text[65:69] --> decoded_text[92:97] '상납하는' --> '<unk>'",
74
+ "replace text[70:73] --> decoded_text[98:103] '것이다' --> '<unk>'"
75
+ ],
76
+ "n_oov_chars": 55,
77
+ "oov_ratio": 0.7432432432432432,
78
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
79
+ },
80
+ {
81
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
82
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk>(22)<unk> <unk> 4<unk>3<unk>(2<unk> <unk>) 3<unk>(.246.270.508). <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
83
+ "diff": [
84
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '<unk>'",
85
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '<unk>'",
86
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '<unk>'",
87
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '<unk>'",
88
+ "replace text[18:21] --> decoded_text[24:29] '바레토' --> '<unk>'",
89
+ "replace text[25:26] --> decoded_text[33:38] '는' --> '<unk>'",
90
+ "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> '<unk>'",
91
+ "replace text[37:39] --> decoded_text[46:51] '타수' --> '<unk>'",
92
+ "replace text[40:42] --> decoded_text[52:57] '안타' --> '<unk>'",
93
+ "replace text[44:46] --> decoded_text[59:64] '루타' --> '<unk>'",
94
+ "replace text[47:49] --> decoded_text[65:70] '홈런' --> '<unk>'",
95
+ "replace text[52:54] --> decoded_text[73:78] '타점' --> '<unk>'",
96
+ "delete text[59:60] --> decoded_text[83:83] ' ' --> ''",
97
+ "delete text[64:65] --> decoded_text[87:87] ' ' --> ''",
98
+ "replace text[72:75] --> decoded_text[94:99] '하지만' --> '<unk>'",
99
+ "replace text[76:79] --> decoded_text[100:105] '아직은' --> '<unk>'",
100
+ "replace text[80:84] --> decoded_text[106:111] '트레이드' --> '<unk>'",
101
+ "replace text[85:88] --> decoded_text[112:117] '당시의' --> '<unk>'",
102
+ "replace text[89:93] --> decoded_text[118:123] '기대치를' --> '<unk>'",
103
+ "replace text[94:98] --> decoded_text[124:129] '보여주지' --> '<unk>'",
104
+ "replace text[99:102] --> decoded_text[130:135] '못하고' --> '<unk>'",
105
+ "replace text[103:105] --> decoded_text[136:141] '있다' --> '<unk>'"
106
+ ],
107
+ "n_oov_chars": 62,
108
+ "oov_ratio": 0.5849056603773585,
109
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
110
+ },
111
+ {
112
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
113
+ "decoded_text": "<unk> 2<unk> <unk> <unk>. <unk> A, B<unk> 1<unk> 12<unk>-4<unk>-<unk> 3<unk> <unk>, C, D, <unk> E, F<unk> 1<unk> <unk> 12<unk>-6<unk>-4<unk>-<unk> 4<unk> <unk> <unk>.",
114
+ "diff": [
115
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '<unk>'",
116
+ "replace text[8:10] --> decoded_text[7:12] '팀이' --> '<unk>'",
117
+ "replace text[11:15] --> decoded_text[13:18] '준결승에' --> '<unk>'",
118
+ "replace text[16:19] --> decoded_text[19:24] '오른다' --> '<unk>'",
119
+ "replace text[21:23] --> decoded_text[26:31] '결국' --> '<unk>'",
120
+ "replace text[28:29] --> decoded_text[36:41] '조' --> '<unk>'",
121
+ "replace text[31:33] --> decoded_text[43:48] '위는' --> '<unk>'",
122
+ "replace text[36:37] --> decoded_text[51:56] '강' --> '<unk>'",
123
+ "replace text[39:40] --> decoded_text[58:63] '강' --> '<unk>'",
124
+ "replace text[41:45] --> decoded_text[64:69] '결승으로' --> '<unk>'",
125
+ "replace text[47:50] --> decoded_text[71:76] '경기를' --> '<unk>'",
126
+ "replace text[51:55] --> decoded_text[77:82] '치르지만' --> '<unk>'",
127
+ "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> '<unk>'",
128
+ "replace text[76:77] --> decoded_text[100:105] '조' --> '<unk>'",
129
+ "replace text[79:81] --> decoded_text[107:112] '위는' --> '<unk>'",
130
+ "replace text[82:84] --> decoded_text[113:118] '주소' --> '<unk>'",
131
+ "replace text[87:88] --> decoded_text[121:126] '강' --> '<unk>'",
132
+ "replace text[90:91] --> decoded_text[128:133] '강' --> '<unk>'",
133
+ "replace text[93:94] --> decoded_text[135:140] '강' --> '<unk>'",
134
+ "replace text[95:99] --> decoded_text[141:146] '결승으로' --> '<unk>'",
135
+ "replace text[101:104] --> decoded_text[148:153] '경기를' --> '<unk>'",
136
+ "replace text[105:107] --> decoded_text[154:159] '해야' --> '<unk>'",
137
+ "replace text[108:110] --> decoded_text[160:165] '한다' --> '<unk>'"
138
+ ],
139
+ "n_oov_chars": 60,
140
+ "oov_ratio": 0.5405405405405406,
141
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]"
142
+ },
143
+ {
144
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
145
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> '<unk> <unk> 1<unk>'<unk> <unk>, <unk> <unk>.",
146
+ "diff": [
147
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '<unk>'",
148
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '<unk>'",
149
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '<unk>'",
150
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '<unk>'",
151
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '<unk>'",
152
+ "replace text[17:18] --> decoded_text[30:35] '한' --> '<unk>'",
153
+ "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '<unk>'",
154
+ "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '<unk>'",
155
+ "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '<unk>'",
156
+ "replace text[41:44] --> decoded_text[55:60] '배우의' --> '<unk>'",
157
+ "replace text[45:48] --> decoded_text[61:66] '매니저' --> '<unk>'",
158
+ "replace text[49:51] --> decoded_text[67:72] '일을' --> '<unk>'",
159
+ "replace text[52:54] --> decoded_text[73:78] '하고' --> '<unk>'",
160
+ "replace text[55:58] --> decoded_text[79:84] '있다는' --> '<unk>'",
161
+ "replace text[59:60] --> decoded_text[85:90] '한' --> '<unk>'",
162
+ "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '<unk>'",
163
+ "replace text[66:69] --> decoded_text[97:102] '사연에' --> '<unk>'",
164
+ "replace text[70:74] --> decoded_text[103:108] '박명수는' --> '<unk>'",
165
+ "replace text[76:79] --> decoded_text[110:115] '실시간' --> '<unk>'",
166
+ "replace text[80:83] --> decoded_text[116:121] '검색어' --> '<unk>'",
167
+ "replace text[85:86] --> decoded_text[123:128] '위' --> '<unk>'",
168
+ "replace text[87:88] --> decoded_text[129:134] '를' --> '<unk>'",
169
+ "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> '<unk>'",
170
+ "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> '<unk>'",
171
+ "replace text[104:106] --> decoded_text[148:153] '했다' --> '<unk>'"
172
+ ],
173
+ "n_oov_chars": 78,
174
+ "oov_ratio": 0.7289719626168224,
175
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
176
+ },
177
+ {
178
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
179
+ "decoded_text": "<unk> <unk> <unk>, <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>. <unk> ‘<unk> <unk>’<unk> <unk> <unk> <unk> <unk>.",
180
+ "diff": [
181
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '<unk>'",
182
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '<unk>'",
183
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '<unk>'",
184
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '<unk>'",
185
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '<unk>'",
186
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '<unk>'",
187
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '<unk>'",
188
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '<unk>'",
189
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '<unk>'",
190
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '<unk>'",
191
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '<unk>'",
192
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '<unk>'",
193
+ "replace text[58:59] --> decoded_text[75:80] '빅' --> '<unk>'",
194
+ "replace text[60:63] --> decoded_text[81:86] '사이닝' --> '<unk>'",
195
+ "replace text[64:65] --> decoded_text[87:92] '을' --> '<unk>'",
196
+ "replace text[66:68] --> decoded_text[93:98] '통해' --> '<unk>'",
197
+ "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> '<unk>'",
198
+ "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> '<unk>'",
199
+ "replace text[79:83] --> decoded_text[111:116] '때문이다' --> '<unk>'"
200
+ ],
201
+ "n_oov_chars": 62,
202
+ "oov_ratio": 0.7380952380952381,
203
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
204
+ },
205
+ {
206
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
207
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
208
+ "diff": [
209
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '<unk>'",
210
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '<unk>'",
211
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '<unk>'",
212
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '<unk>'",
213
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '<unk>'",
214
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '<unk>'",
215
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '<unk>'"
216
+ ],
217
+ "n_oov_chars": 33,
218
+ "oov_ratio": 0.825,
219
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
220
+ },
221
+ {
222
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
223
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>, <unk> <unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
224
+ "diff": [
225
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '<unk>'",
226
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '<unk>'",
227
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '<unk>'",
228
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '<unk>'",
229
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '<unk>'",
230
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '<unk>'",
231
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '<unk>'",
232
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '<unk>'",
233
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '<unk>'",
234
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '<unk>'",
235
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '<unk>'",
236
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '<unk>'",
237
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '<unk>'",
238
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '<unk>'",
239
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '<unk>'",
240
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '<unk>'",
241
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '<unk>'",
242
+ "replace text[66:67] --> decoded_text[104:109] '한' --> '<unk>'",
243
+ "replace text[68:70] --> decoded_text[110:115] '번씩' --> '<unk>'",
244
+ "replace text[71:74] --> decoded_text[116:121] '만나는' --> '<unk>'",
245
+ "replace text[75:77] --> decoded_text[122:127] '친구' --> '<unk>'",
246
+ "replace text[78:80] --> decoded_text[128:133] '같은' --> '<unk>'",
247
+ "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '<unk>'",
248
+ "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '<unk>'",
249
+ "replace text[94:97] --> decoded_text[146:151] '강했다' --> '<unk>'"
250
+ ],
251
+ "n_oov_chars": 71,
252
+ "oov_ratio": 0.7244897959183674,
253
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
254
+ }
255
+ ]
stats/compression_rate/ClueAI.ChatYuan-large-v2 @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,157 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
4
+ "decoded_text": "<unk>招财带什么佛牌<unk>(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
5
+ "diff": [
6
+ "replace text[0:1] --> decoded_text[0:5] '卍' --> '<unk>'",
7
+ "replace text[8:9] --> decoded_text[12:17] '卍' --> '<unk>'",
8
+ "replace text[57:58] --> decoded_text[65:66] ',' --> ','",
9
+ "replace text[95:96] --> decoded_text[103:104] ',' --> ','",
10
+ "replace text[113:114] --> decoded_text[121:122] ',' --> ','",
11
+ "replace text[136:137] --> decoded_text[144:145] ',' --> ','",
12
+ "replace text[148:149] --> decoded_text[156:157] ',' --> ','",
13
+ "replace text[168:169] --> decoded_text[176:177] ',' --> ','",
14
+ "replace text[183:184] --> decoded_text[191:192] ',' --> ','",
15
+ "replace text[213:214] --> decoded_text[221:222] ':' --> ':'"
16
+ ],
17
+ "n_oov_chars": 10,
18
+ "oov_ratio": 0.04672897196261682,
19
+ "oov_charset": "[\"卍\", \",\", \":\"]"
20
+ },
21
+ {
22
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
23
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
24
+ "diff": [
25
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
26
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
27
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
28
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
29
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
30
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
31
+ ],
32
+ "n_oov_chars": 6,
33
+ "oov_ratio": 0.04838709677419355,
34
+ "oov_charset": "[\",\", \"3\", \"5\"]"
35
+ },
36
+ {
37
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
38
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
39
+ "diff": [
40
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
41
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
42
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
43
+ ],
44
+ "n_oov_chars": 3,
45
+ "oov_ratio": 0.0375,
46
+ "oov_charset": "[\",\"]"
47
+ },
48
+ {
49
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
50
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
51
+ "diff": [
52
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
53
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
54
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
55
+ ],
56
+ "n_oov_chars": 3,
57
+ "oov_ratio": 0.038461538461538464,
58
+ "oov_charset": "[\",\"]"
59
+ },
60
+ {
61
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
62
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
63
+ "diff": [
64
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
65
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
66
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
67
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
68
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
69
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
70
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
71
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
72
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
73
+ ],
74
+ "n_oov_chars": 9,
75
+ "oov_ratio": 0.04477611940298507,
76
+ "oov_charset": "[\",\", \":\"]"
77
+ },
78
+ {
79
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
80
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
81
+ "diff": [
82
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
83
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
84
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
85
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
86
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
87
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
88
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
89
+ ],
90
+ "n_oov_chars": 7,
91
+ "oov_ratio": 0.08860759493670886,
92
+ "oov_charset": "[\",\"]"
93
+ },
94
+ {
95
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
96
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
97
+ "diff": [
98
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
99
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
100
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
101
+ ],
102
+ "n_oov_chars": 3,
103
+ "oov_ratio": 0.02608695652173913,
104
+ "oov_charset": "[\",\"]"
105
+ },
106
+ {
107
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
108
+ "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
109
+ "diff": [
110
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
111
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
112
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
113
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
114
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
115
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
116
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
117
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
118
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
119
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
120
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
121
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
122
+ ],
123
+ "n_oov_chars": 12,
124
+ "oov_ratio": 0.08759124087591241,
125
+ "oov_charset": "[\",\", \":\", \"?\"]"
126
+ },
127
+ {
128
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
129
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
130
+ "diff": [
131
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
132
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
133
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
134
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
135
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
136
+ ],
137
+ "n_oov_chars": 5,
138
+ "oov_ratio": 0.05747126436781609,
139
+ "oov_charset": "[\",\"]"
140
+ },
141
+ {
142
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
143
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
144
+ "diff": [
145
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
146
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
147
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
148
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
149
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
150
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
151
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
152
+ ],
153
+ "n_oov_chars": 7,
154
+ "oov_ratio": 0.05303030303030303,
155
+ "oov_charset": "[\",\"]"
156
+ }
157
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ar.diff.json ADDED
@@ -0,0 +1,177 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- الل<unk>ا<unk> / <unk>ل<unk> <unk> ال<unk>لا<unk> - <unk> <unk>ا<unk>.. ( 1)",
5
+ "diff": [
6
+ "replace text[5:6] --> decoded_text[5:10] 'و' --> '<unk>'",
7
+ "replace text[7:8] --> decoded_text[11:16] 'ء' --> '<unk>'",
8
+ "replace text[11:12] --> decoded_text[19:24] 'ع' --> '<unk>'",
9
+ "replace text[13:14] --> decoded_text[25:30] 'ي' --> '<unk>'",
10
+ "replace text[15:19] --> decoded_text[31:36] 'محمد' --> '<unk>'",
11
+ "replace text[22:24] --> decoded_text[39:44] 'كح' --> '<unk>'",
12
+ "replace text[26:28] --> decoded_text[46:51] 'ني' --> '<unk>'",
13
+ "replace text[31:36] --> decoded_text[54:59] 'نصيحة' --> '<unk>'",
14
+ "replace text[37:38] --> decoded_text[60:65] 'ص' --> '<unk>'",
15
+ "replace text[39:43] --> decoded_text[66:71] 'دقة ' --> '<unk>'"
16
+ ],
17
+ "n_oov_chars": 21,
18
+ "oov_ratio": 0.42,
19
+ "oov_charset": "[\"و\", \"ء\", \"ع\", \"ي\", \"م\", \"ح\", \"د\", \"ك\", \"ن\", \"ص\", \"ة\", \"ق\"]"
20
+ },
21
+ {
22
+ "text": "اليمن جنوبها وشمالها.. شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة وضعها الطبيعي, ومن حياتها الاعتيادية الطبيعية في 22مايو العام 1990م.. بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب, ومن اضطراب في نسيجها الاجتماعي, ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم.. ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أمل, ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام 1990م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام, وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية.. وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى, عدا مصلحة اليمن الواحد الموحد.. مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي (تردف) كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن..",
23
+ "decoded_text": "ال<unk> <unk>ا <unk>ال<unk>ا.. <unk>ا <unk>ا <unk> <unk>ل<unk> <unk>ا<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk>ال<unk> <unk> ا<unk>ا<unk> <unk>ا ال<unk>, <unk> <unk>ا<unk>ا الا<unk>ا<unk> ال<unk> <unk> 22<unk>ا<unk> ال<unk>ا<unk> 1990<unk>.. <unk>ل <unk> <unk> <unk> <unk> <unk>ا<unk> <unk>ا<unk>ا <unk>ل<unk>ا<unk> <unk> ل<unk>ا <unk>ل <unk>ل<unk> <unk>ال <unk>ا<unk>ا <unk> ا<unk>ال <unk> ا<unk>ا<unk>, <unk> ا<unk>ا<unk> <unk> <unk>ا الا<unk>ا<unk>, <unk> ا<unk>ا<unk> <unk> <unk> <unk>ا<unk>ا ل<unk>لا<unk>ا<unk> ال<unk> <unk>ل<unk>ا<unk>ا<unk>.. <unk> <unk> ال<unk>ا<unk> ل<unk> <unk> <unk> ال<unk> ال<unk> <unk> <unk>ا<unk>ا <unk>ل, <unk> <unk>ا<unk>ا <unk> <unk>ا<unk>ال<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> ال<unk> ل<unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> 1990<unk> <unk>ا<unk>ا ال<unk>ال<unk> <unk> <unk> <unk>ا<unk> ال<unk>ال<unk> <unk>ا<unk> <unk> الا<unk>ا<unk>, <unk>ا <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk> <unk> ال<unk> <unk> <unk>ل<unk> ال<unk> الا<unk>ا<unk>.. <unk>ا<unk> ا<unk>ا<unk> ال<unk> <unk>الا<unk> <unk>ا<unk> <unk> ال<unk> <unk>ا<unk> <unk> <unk>ال<unk> <unk> ال<unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> ال<unk>ل<unk> ال<unk>ل<unk>ا <unk> <unk> <unk>ال<unk> <unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk> <unk> <unk>ا<unk>ا<unk> <unk> <unk> <unk> <unk>ال<unk> <unk>, <unk>ا <unk>ل<unk> ال<unk> ال<unk>ا<unk> ال<unk>.. <unk>ل<unk> ال<unk>ا<unk> <unk> <unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk> ال<unk> ال<unk> ال<unk> (<unk>) <unk>ل <unk>لا<unk> ال<unk> ال<unk> <unk> <unk>ا<unk> <unk> <unk> <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk>..",
24
+ "diff": [
25
+ "replace text[2:19] --> decoded_text[2:27] 'يمن جنوبها وشماله' --> '<unk> <unk>ا <unk>ال<unk>'",
26
+ "replace text[23:97] --> decoded_text[31:149] 'شرقها وغربها وقفت على مشارف العام الثامن والعشرين من استعادة و��عها الطبيعي' --> '<unk>ا <unk>ا <unk> <unk>ل<unk> <unk>ا<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk>ال<unk> <unk> ا<unk>ا<unk> <unk>ا ال<unk>'",
27
+ "replace text[99:132] --> decoded_text[151:198] 'ومن حياتها الاعتيادية الطبيعية في' --> '<unk> <unk>ا<unk>ا الا<unk>ا<unk> ال<unk> <unk>'",
28
+ "replace text[135:145] --> decoded_text[201:226] 'مايو العام' --> '<unk>ا<unk> ال<unk>ا<unk>'",
29
+ "replace text[150:151] --> decoded_text[231:236] 'م' --> '<unk>'",
30
+ "replace text[154:247] --> decoded_text[239:400] 'بكل تأكيد قد تنهدت من أعماق أعماقها ألماً وأسىً لما وصل إليه حال أبنائها من اقتتال ومن احتراب' --> '<unk>ل <unk> <unk> <unk> <unk> <unk>ا<unk> <unk>ا<unk>ا <unk>ل<unk>ا<unk> <unk> ل<unk>ا <unk>ل <unk>ل<unk> <unk>ال <unk>ا<unk>ا <unk> ا<unk>ال <unk> ا<unk>ا<unk>'",
31
+ "replace text[249:279] --> decoded_text[402:448] 'ومن اضطراب في نسيجها الاجتماعي' --> '<unk> ا<unk>ا<unk> <unk> <unk>ا الا<unk>ا<unk>'",
32
+ "replace text[281:332] --> decoded_text[450:545] 'ومن انصياع من بعض أبنائها لإملاءات الغير ولحساباتهم' --> '<unk> ا<unk>ا<unk> <unk> <unk> <unk>ا<unk>ا ل<unk>لا<unk>ا<unk> ال<unk> <unk>ل<unk>ا<unk>ا<unk>'",
33
+ "replace text[335:388] --> decoded_text[548:633] 'ووسط هذه المأساة لم تعدم هذه الأرض الطيبة من بقايا أم' --> '<unk> <unk> ال<unk>ا<unk> ل<unk> <unk> <unk> ال<unk> ال<unk> <unk> <unk>ا<unk>ا <unk>'",
34
+ "replace text[391:462] --> decoded_text[636:761] 'ومن بقايا حكمة مازالت تميز أبناء هذا الشعب الطيب لأن اليمانيين في العام' --> '<unk> <unk>ا<unk>ا <unk> <unk>ا<unk>ال<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> ال<unk> ل<unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk>'",
35
+ "replace text[467:525] --> decoded_text[766:871] 'م فاجأوا العالم بوحدتهم حين كان العالم منغمساً في الانقسام' --> '<unk> <unk>ا<unk>ا ال<unk>ال<unk> <unk> <unk> <unk>ا<unk> ال<unk>ال<unk> <unk>ا<unk> <unk> الا<unk>ا<unk>'",
36
+ "replace text[527:602] --> decoded_text[873:980] 'وحينما كانت الأنظمة تتبعثر كان اليمن يقدم النموذج في تلك الظروف الاستثنائية' --> '<unk>ا <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk> <unk> ال<unk> <unk> <unk>ل<unk> ال<unk> الا<unk>ا<unk>'",
37
+ "replace text[605:785] --> decoded_text[983:1295] 'وكان اندفاع اليمنيين شمالاً وجنوباً نحو الوحدة طوعياً وبمستوى عالٍ من الحكمة ونكران الذات وتغليب المصلحة العليا عن أية مصالح أخرى سواءً كانت ذاتية أو حسابات جهوية أو أية مصالح أخرى' --> '<unk>ا<unk> ا<unk>ا<unk> ال<unk> <unk>الا<unk> <unk>ا<unk> <unk> ال<unk> <unk>ا<unk> <unk> <unk>ال<unk> <unk> ال<unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> ال<unk>ل<unk> ال<unk>ل<unk>ا <unk> <unk> <unk>ال<unk> <unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk> <unk> <unk>ا<unk>ا<unk> <unk> <unk> <unk> <unk>ال<unk> <unk>'",
38
+ "replace text[787:816] --> decoded_text[1297:1345] 'عدا مصلحة اليمن الواحد الموحد' --> '<unk>ا <unk>ل<unk> ال<unk> ال<unk>ا<unk> ال<unk>'",
39
+ "replace text[819:884] --> decoded_text[1348:1447] 'مصلحة الإيثار ونحن نعتقد أن مرحلة التسعينات من القرن العشرين التي' --> '<unk>ل<unk> ال<unk>ا<unk> <unk> <unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk> ال<unk> ال<unk> ال<unk>'",
40
+ "replace text[886:890] --> decoded_text[1449:1454] 'تردف' --> '<unk>'",
41
+ "replace text[892:964] --> decoded_text[1456:1567] 'كل مشكلات العقود التي سبقته كانت محورية في تاريخ المنطقة وفي تاريخ اليمن' --> '<unk>ل <unk>لا<unk> ال<unk> ال<unk> <unk> <unk>ا<unk> <unk> <unk> <unk>ا<unk> ال<unk> <unk> <unk>ا<unk> ال<unk>'"
42
+ ],
43
+ "n_oov_chars": 567,
44
+ "oov_ratio": 0.5869565217391305,
45
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"ج\", \"و\", \"ب\", \"ه\", \"ش\", \"ر\", \"ق\", \"غ\", \"ف\", \"ت\", \"ع\", \"ى\", \"ث\", \"س\", \"د\", \"ة\", \"ض\", \"ط\", \"ح\", \"ك\", \"أ\", \"ً\", \"ص\", \"إ\", \"ئ\", \"ء\", \"ذ\", \"ز\", \"ظ\", \"ٍ\", \"خ\"]"
46
+ },
47
+ {
48
+ "text": "واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر, وما شهدته البلد من مواقف عديدة, فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية, أو انتماءاتهم المناطقية أو القبلية أو الجهوية, أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان..",
49
+ "decoded_text": "<unk>ال<unk> <unk> <unk> <unk> <unk>ا<unk> <unk> <unk> <unk> <unk> ال<unk>, <unk>ا <unk> ال<unk>ل<unk> <unk> <unk>ا<unk> <unk>, <unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل<unk> <unk>ا<unk> ال<unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk>ا<unk> ال<unk>ا<unk>, <unk> ا<unk>ا<unk>ا<unk> ال<unk>ا<unk> <unk> ال<unk>ل<unk> <unk> ال<unk>, <unk> <unk>ا <unk>ا<unk> <unk>ا <unk> <unk> <unk>ل ال<unk>ال<unk> <unk> <unk> <unk>الل<unk> <unk>ل<unk> <unk>ل ال<unk>ل<unk>ا<unk> <unk>ال<unk>ل<unk> <unk>ل<unk> <unk>ل<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ل <unk>ا<unk>..",
50
+ "diff": [
51
+ "replace text[0:49] --> decoded_text[0:74] 'واليوم وبعد أن جرت مياه كثيرة وتدفقت من تحت الجسر' --> '<unk>ال<unk> <unk> <unk> <unk> <unk>ا<unk> <unk> <unk> <unk> <unk> ال<unk>'",
52
+ "replace text[51:81] --> decoded_text[76:126] 'وما شهدته البلد من مواقف عديدة' --> '<unk>ا <unk> ال<unk>ل<unk> <unk> <unk>ا<unk> <unk>'",
53
+ "replace text[83:151] --> decoded_text[128:249] 'فإن الحكمة اليمانية توجب على أبناء اليمن أياً كانت تياراتهم السياسية' --> '<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل<unk> <unk>ا<unk> ال<unk> <unk>ا<unk> <unk>ا<unk> <unk>ا<unk>ا<unk> ال<unk>ا<unk>'",
54
+ "replace text[153:198] --> decoded_text[251:323] 'أو انتماءاتهم المناطقية أو القبلية أو الجهوية' --> '<unk> ا<unk>ا<unk>ا<unk> ال<unk>ا<unk> <unk> ال<unk>ل<unk> <unk> ال<unk>'",
55
+ "replace text[200:337] --> decoded_text[325:564] 'أن يستذكروا جيداً ما وصفهم به رسول العالمين محمد بن عبدالله عليه أفضل الصلوات والتسليم وعلى آله الأخيار الأطهار بأنهم أهل حكمة وأهل إيمان' --> '<unk> <unk>ا <unk>ا<unk> <unk>ا <unk> <unk> <unk>ل ال<unk>ال<unk> <unk> <unk> <unk>الل<unk> <unk>ل<unk> <unk>ل ال<unk>ل<unk>ا<unk> <unk>ال<unk>ل<unk> <unk>ل<unk> <unk>ل<unk> ال<unk>ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ل <unk>ا<unk>'"
56
+ ],
57
+ "n_oov_chars": 208,
58
+ "oov_ratio": 0.6135693215339233,
59
+ "oov_charset": "[\"و\", \"ي\", \"م\", \"ب\", \"ع\", \"د\", \"أ\", \"ن\", \"ج\", \"ر\", \"ت\", \"ه\", \"ك\", \"ث\", \"ة\", \"ف\", \"ق\", \"ح\", \"س\", \"ش\", \"إ\", \"ى\", \"ء\", \"ً\", \"ط\", \"ذ\", \"ص\", \"ض\", \"آ\", \"خ\"]"
60
+ },
61
+ {
62
+ "text": "وكلام الرسول وأحاديثه ما هي إلا وحي من الله.. بمعنى أن العمل بما قاله الرسول الأعظم هو مسؤولية أخلاقية ودينية ومسؤولية سياسية..",
63
+ "decoded_text": "<unk>لا<unk> ال<unk>ل <unk>ا<unk> <unk>ا <unk> <unk>لا <unk> <unk> الل<unk>.. <unk> <unk> ال<unk>ل <unk>ا <unk>ال<unk> ال<unk>ل ال<unk> <unk> <unk>ل<unk> <unk>لا<unk> <unk> <unk>ل<unk> <unk>ا<unk>..",
64
+ "diff": [
65
+ "replace text[0:2] --> decoded_text[0:5] 'وك' --> '<unk>'",
66
+ "replace text[4:5] --> decoded_text[7:12] 'م' --> '<unk>'",
67
+ "replace text[8:11] --> decoded_text[15:20] 'رسو' --> '<unk>'",
68
+ "replace text[13:16] --> decoded_text[22:27] 'وأح' --> '<unk>'",
69
+ "replace text[17:21] --> decoded_text[28:33] 'ديثه' --> '<unk>'",
70
+ "replace text[22:23] --> decoded_text[34:39] 'م' --> '<unk>'",
71
+ "replace text[25:27] --> decoded_text[41:46] 'هي' --> '<unk>'",
72
+ "replace text[28:29] --> decoded_text[47:52] 'إ' --> '<unk>'",
73
+ "replace text[32:35] --> decoded_text[55:60] 'وحي' --> '<unk>'",
74
+ "replace text[36:38] --> decoded_text[61:66] 'من' --> '<unk>'",
75
+ "replace text[42:43] --> decoded_text[70:75] 'ه' --> '<unk>'",
76
+ "replace text[46:51] --> decoded_text[78:83] 'بمعنى' --> '<unk>'",
77
+ "replace text[52:54] --> decoded_text[84:89] 'أن' --> '<unk>'",
78
+ "replace text[57:59] --> decoded_text[92:97] 'عم' --> '<unk>'",
79
+ "replace text[61:63] --> decoded_text[99:104] 'بم' --> '<unk>'",
80
+ "replace text[65:66] --> decoded_text[106:111] 'ق' --> '<unk>'",
81
+ "replace text[68:69] --> decoded_text[113:118] 'ه' --> '<unk>'",
82
+ "replace text[72:75] --> decoded_text[121:126] 'رسو' --> '<unk>'",
83
+ "replace text[79:83] --> decoded_text[130:135] 'أعظم' --> '<unk>'",
84
+ "replace text[84:86] --> decoded_text[136:141] 'هو' --> '<unk>'",
85
+ "replace text[87:91] --> decoded_text[142:147] 'مسؤو' --> '<unk>'",
86
+ "replace text[92:94] --> decoded_text[148:153] 'ية' --> '<unk>'",
87
+ "replace text[95:97] --> decoded_text[154:159] 'أخ' --> '<unk>'",
88
+ "replace text[99:102] --> decoded_text[161:166] 'قية' --> '<unk>'",
89
+ "replace text[103:109] --> decoded_text[167:172] 'ودينية' --> '<unk>'",
90
+ "replace text[110:115] --> decoded_text[173:178] 'ومسؤو' --> '<unk>'",
91
+ "replace text[116:118] --> decoded_text[179:184] 'ية' --> '<unk>'",
92
+ "replace text[119:121] --> decoded_text[185:190] 'سي' --> '<unk>'",
93
+ "replace text[122:125] --> decoded_text[191:196] 'سية' --> '<unk>'"
94
+ ],
95
+ "n_oov_chars": 74,
96
+ "oov_ratio": 0.5826771653543307,
97
+ "oov_charset": "[\"و\", \"ك\", \"م\", \"ر\", \"س\", \"أ\", \"ح\", \"د\", \"ي\", \"ث\", \"ه\", \"إ\", \"ن\", \"ب\", \"ع\", \"ى\", \"ق\", \"ظ\", \"ؤ\", \"ة\", \"خ\"]"
98
+ },
99
+ {
100
+ "text": "فهل أوضاع اليمنيين القائمة هي نتاج حكمة, وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم..",
101
+ "decoded_text": "<unk>ل <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ا<unk> <unk>, <unk>ل <unk> ال<unk> <unk> <unk>ل ال<unk> <unk>ال<unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ا <unk>ا <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> ال<unk>..",
102
+ "diff": [
103
+ "replace text[0:39] --> decoded_text[0:64] 'فهل أوضاع اليمنيين القائمة هي نتاج حكمة' --> '<unk>ل <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ا<unk> <unk>'",
104
+ "replace text[41:141] --> decoded_text[66:232] 'وهل من الحكمة أن تظل البندقية والقذيفة هي وسيلة الخطاب والحوار فيما بيننا نحن أبناء هذا البلد العظيم' --> '<unk>ل <unk> ال<unk> <unk> <unk>ل ال<unk> <unk>ال<unk> <unk> <unk>ل<unk> ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ا <unk>ا <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> ال<unk>'"
105
+ ],
106
+ "n_oov_chars": 84,
107
+ "oov_ratio": 0.5874125874125874,
108
+ "oov_charset": "[\"ف\", \"ه\", \"أ\", \"و\", \"ض\", \"ع\", \"ي\", \"م\", \"ن\", \"ق\", \"ئ\", \"ة\", \"ت\", \"ج\", \"ح\", \"ك\", \"ظ\", \"ب\", \"د\", \"ذ\", \"س\", \"خ\", \"ط\", \"ر\", \"ء\"]"
109
+ },
110
+ {
111
+ "text": "وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان, ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله..",
112
+ "decoded_text": "<unk>ل الا<unk>ا<unk> <unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk> الا<unk>ا<unk>, <unk> <unk> الا<unk>ا<unk> <unk> <unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk> الل<unk> <unk>ل<unk> ال<unk> <unk>ل<unk> <unk>لا<unk> الل<unk> <unk>لا<unk> <unk>ل<unk> <unk>ل<unk>..",
113
+ "diff": [
114
+ "replace text[0:51] --> decoded_text[0:80] 'وهل الانسياق نحو مزيدٍ من العناد ومزيدٍ من الاحتقان' --> '<unk>ل الا<unk>ا<unk> <unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk> الا<unk>ا<unk>'",
115
+ "replace text[53:155] --> decoded_text[82:274] 'ومزيدٍ من الاحتراب بين أبناء بلد واحد وشعب واحد يرضى الله ورسوله الكريم عليه صلاة الله وسلامه وعلى آله' --> '<unk> <unk> الا<unk>ا<unk> <unk> <unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk> الل<unk> <unk>ل<unk> ال<unk> <unk>ل<unk> <unk>لا<unk> الل<unk> <unk>لا<unk> <unk>ل<unk> <unk>ل<unk>'"
116
+ ],
117
+ "n_oov_chars": 91,
118
+ "oov_ratio": 0.5796178343949044,
119
+ "oov_charset": "[\"و\", \"ه\", \"ن\", \"س\", \"ي\", \"ق\", \"ح\", \"م\", \"ز\", \"د\", \"ٍ\", \"ع\", \"ت\", \"ر\", \"ب\", \"أ\", \"ء\", \"ش\", \"ض\", \"ى\", \"ك\", \"ص\", \"ة\", \"آ\"]"
120
+ },
121
+ {
122
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
123
+ "decoded_text": "<unk>ا لا ا<unk> <unk> <unk>ا<unk>لا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> <unk>ل <unk> <unk> <unk>ا <unk> <unk>.. <unk> <unk>ل ال<unk>- <unk> <unk>ل<unk> <unk>لا<unk> <unk>ال<unk>, <unk>ل<unk> <unk>لال, <unk> <unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk>ا, <unk>ل <unk>ال<unk> <unk>ا<unk> <unk>ل<unk>ا<unk> <unk> <unk> <unk>ل<unk> <unk> ل<unk>ا<unk>..",
124
+ "diff": [
125
+ "replace text[0:67] --> decoded_text[0:118] 'أنا لا اعتقد أن عاقلاً من بناء هذا البلد يق��ل أو يستسيغ ما يجري فيه' --> '<unk>ا لا ا<unk> <unk> <unk>ا<unk>لا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk>ل<unk> <unk>ل <unk> <unk> <unk>ا <unk> <unk>'",
126
+ "replace text[70:84] --> decoded_text[121:141] 'أن يتحول اليمن' --> '<unk> <unk>ل ال<unk>'",
127
+ "replace text[86:107] --> decoded_text[143:186] 'وهو بلد ولاَّد بالخير' --> '<unk> <unk>ل<unk> <unk>لا<unk> <unk>ال<unk>'",
128
+ "replace text[109:115] --> decoded_text[188:205] 'إلى أط' --> '<unk>ل<unk> <unk>'",
129
+ "replace text[120:174] --> decoded_text[210:297] 'وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضه' --> '<unk> <unk> <unk>ا<unk> ال<unk>ا<unk> <unk>ل<unk> <unk> <unk> ال<unk>ا<unk> <unk> <unk>'",
130
+ "replace text[177:224] --> decoded_text[300:392] 'بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه' --> '<unk>ل <unk>ال<unk> <unk>ا<unk> <unk>ل<unk>ا<unk> <unk> <unk> <unk>ل<unk> <unk> ل<unk>ا<unk>'"
131
+ ],
132
+ "n_oov_chars": 132,
133
+ "oov_ratio": 0.584070796460177,
134
+ "oov_charset": "[\"أ\", \"ن\", \"ع\", \"ت\", \"ق\", \"د\", \"ً\", \"م\", \"ب\", \"ء\", \"ه\", \"ذ\", \"ي\", \"و\", \"س\", \"غ\", \"ج\", \"ر\", \"ف\", \"ح\", \"ّ\", \"َ\", \"خ\", \"إ\", \"ى\", \"ط\", \"ض\", \"ؤ\", \"ئ\", \"ش\", \"ك\", \"ة\"]"
135
+ },
136
+ {
137
+ "text": "اليمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان, لم يسلموا ولن يسلموا.. والأعباء والمتاعب طالت الجميع, وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جيل, وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة, أو أبوظبي..؟!",
138
+ "decoded_text": "ال<unk> <unk> <unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> <unk> <unk>ل<unk> ال<unk> <unk> <unk> <unk> <unk> ال<unk>ا<unk> ال<unk>ا<unk> لل<unk>ا<unk>, ل<unk> <unk>ل<unk>ا <unk>ل<unk> <unk>ل<unk>ا.. <unk>ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ال<unk> ال<unk>, <unk> <unk>ل ال<unk> <unk>الا<unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk>ل <unk> <unk>ا<unk>ا<unk> <unk>ا<unk> <unk>ل <unk>لا<unk> ال<unk>ال ال<unk> <unk>لا<unk> <unk> <unk>ل, <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk> ال<unk>ل<unk> <unk>ل <unk>ا<unk> <unk>ا ال<unk> <unk> <unk>ل<unk> ل<unk> <unk>ا<unk> <unk> ال<unk>ا<unk> <unk> ال<unk>, <unk> <unk>..<unk>!",
139
+ "diff": [
140
+ "replace text[2:96] --> decoded_text[2:145] 'يمن أنهك من العدوان ومن الحصار حتى أولئك الذين يظنون أنهم بعيدون عن التأثيرات المباشرة للعدوان' --> '<unk> <unk> <unk> ال<unk>ا<unk> <unk> ال<unk>ا<unk> <unk> <unk>ل<unk> ال<unk> <unk> <unk> <unk> <unk> ال<unk>ا<unk> ال<unk>ا<unk> لل<unk>ا<unk>'",
141
+ "replace text[99:117] --> decoded_text[148:190] 'م يسلموا ولن يسلمو' --> '<unk> <unk>ل<unk>ا <unk>ل<unk> <unk>ل<unk>'",
142
+ "replace text[121:150] --> decoded_text[194:252] 'والأعباء والمتاعب طالت الجميع' --> '<unk>ال<unk>ا<unk> <unk>ال<unk>ا<unk> <unk>ال<unk> ال<unk>'",
143
+ "replace text[152:279] --> decoded_text[254:465] 'وإن ظل الصمت والانجرار خلف مواقف تخدم أعداء هذا الشعب فإن المستقبل سيكون قاتماً وأضراره ستظل تلاحق الأجيال اليمنية جيلاً بعد جي' --> '<unk> <unk>ل ال<unk> <unk>الا<unk>ا<unk> <unk>ل<unk> <unk>ا<unk> <unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk>ل <unk> <unk>ا<unk>ا<unk> <unk>ا<unk> <unk>ل <unk>لا<unk> ال<unk>ال ال<unk> <unk>لا<unk> <unk> <unk>'",
144
+ "replace text[282:392] --> decoded_text[468:633] 'وسيكون أعداء هذا الشعب هم المستفيدون الفعليون فهل غابت منا الحكمة حتى ننزلق لنكون أدوات بأيدي الرياض أو الدوحة' --> '<unk> <unk>ا<unk> <unk>ا ال<unk> <unk> ال<unk> ال<unk>ل<unk> <unk>ل <unk>ا<unk> <unk>ا ال<unk> <unk> <unk>ل<unk> ل<unk> <unk>ا<unk> <unk> ال<unk>ا<unk> <unk> ال<unk>'",
145
+ "replace text[394:403] --> decoded_text[635:646] 'أو أبوظبي' --> '<unk> <unk>'",
146
+ "replace text[405:406] --> decoded_text[648:653] '؟' --> '<unk>'"
147
+ ],
148
+ "n_oov_chars": 243,
149
+ "oov_ratio": 0.597051597051597,
150
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"أ\", \"ه\", \"ك\", \"ع\", \"د\", \"و\", \"ح\", \"ص\", \"ر\", \"ت\", \"ى\", \"ئ\", \"ذ\", \"ظ\", \"ب\", \"ث\", \"ش\", \"ة\", \"س\", \"ء\", \"ط\", \"ج\", \"إ\", \"خ\", \"ف\", \"ق\", \"ً\", \"ض\", \"غ\", \"ز\", \"؟\"]"
151
+ },
152
+ {
153
+ "text": "وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية.. أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب!!",
154
+ "decoded_text": "<unk>ل ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk>ل<unk> <unk>ل<unk>ا <unk> <unk>ا<unk> ال<unk> <unk> <unk> <unk>ل<unk> <unk> <unk> <unk>ا<unk> ل<unk> <unk> <unk> <unk> <unk>لا<unk>.. <unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk> ال<unk>ا<unk>ا<unk> <unk> <unk>ا<unk> <unk> <unk>ل <unk>!!",
155
+ "diff": [
156
+ "replace text[0:118] --> decoded_text[0:184] 'وهل انعكست المفاهيم ونحن نقبل بما يملى علينا من عواصم الفتنة ومن رموز قبلت أن تكون خادمة لأجندة غير عربية وغير إسلامية' --> '<unk>ل ا<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk>ل<unk> <unk>ل<unk>ا <unk> <unk>ا<unk> ال<unk> <unk> <unk> <unk>ل<unk> <unk> <unk> <unk>ا<unk> ل<unk> <unk> <unk> <unk> <unk>لا<unk>'",
157
+ "replace text[121:245] --> decoded_text[187:394] 'أجندة تباع فيها الضمائر وتباع فيها المواقف من أجل عين أصحاب البقرة الصفراء ومن أجل رضا أجهزة المخابرات في واشنطن وفي تل أبيب' --> '<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk>ا<unk> <unk>ا ال<unk>ا<unk> <unk> <unk>ل <unk> <unk>ا<unk> ال<unk> ال<unk>ا<unk> <unk> <unk>ل <unk>ا <unk> ال<unk>ا<unk>ا<unk> <unk> <unk>ا<unk> <unk> <unk>ل <unk>'"
158
+ ],
159
+ "n_oov_chars": 156,
160
+ "oov_ratio": 0.631578947368421,
161
+ "oov_charset": "[\"و\", \"ه\", \"ن\", \"ع\", \"ك\", \"س\", \"ت\", \"م\", \"ف\", \"ي\", \"ح\", \"ق\", \"ب\", \"ى\", \"ص\", \"ة\", \"ر\", \"ز\", \"أ\", \"خ\", \"د\", \"ج\", \"غ\", \"إ\", \"ض\", \"ئ\", \"ء\", \"ش\", \"ط\"]"
162
+ },
163
+ {
164
+ "text": "اليمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة, ومحاصرة, ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي, وصوب الرياض, وصوب واشنطن..",
165
+ "decoded_text": "ال<unk>.. <unk> <unk> الل<unk> ال<unk>ا<unk>.. <unk> <unk> ال<unk>ل<unk> ال<unk> <unk>, <unk>ا<unk>, <unk>ا<unk> <unk>ل<unk>ا <unk>ا<unk>ا.. ال<unk> <unk>ا<unk>ا ل<unk> الا<unk>ا<unk> <unk>ا<unk>لا<unk>ا الل<unk> <unk>ا<unk>ا<unk> <unk> <unk>ا <unk> <unk> <unk>, <unk> ال<unk>ا<unk>, <unk> <unk>ا<unk>..",
166
+ "diff": [
167
+ "replace text[2:60] --> decoded_text[2:86] 'يمن.. في هذه اللحظة الفارقة.. في هذه المرحلة الخطيرة مدمرة' --> '<unk>.. <unk> <unk> الل<unk> ال<unk>ا<unk>.. <unk> <unk> ال<unk>ل<unk> ال<unk> <unk>'",
168
+ "replace text[62:69] --> decoded_text[88:99] 'ومحاصرة' --> '<unk>ا<unk>'",
169
+ "replace text[71:166] --> decoded_text[101:261] 'ويباد أهلها وساكنوها.. اليمن أصابتها لعنة الارتزاق وابتلاها الله بقيادات يممت وجهها صوب أبو ظبي' --> '<unk>ا<unk> <unk>ل<unk>ا <unk>ا<unk>ا.. ال<unk> <unk>ا<unk>ا ل<unk> الا<unk>ا<unk> <unk>ا<unk>لا<unk>ا الل<unk> <unk>ا<unk>ا<unk> <unk> <unk>ا <unk> <unk> <unk>'",
170
+ "replace text[168:179] --> decoded_text[263:282] 'وصوب الرياض' --> '<unk> ال<unk>ا<unk>'",
171
+ "replace text[181:194] --> decoded_text[284:303] 'وصوب واشنطن..' --> '<unk> <unk>ا<unk>..'"
172
+ ],
173
+ "n_oov_chars": 111,
174
+ "oov_ratio": 0.5721649484536082,
175
+ "oov_charset": "[\"ي\", \"م\", \"ن\", \"ف\", \"ه\", \"ذ\", \"ح\", \"ظ\", \"ة\", \"ر\", \"ق\", \"خ\", \"ط\", \"د\", \"و\", \"ص\", \"ب\", \"أ\", \"س\", \"ك\", \"ت\", \"ع\", \"ز\", \"ج\", \"ض\", \"ش\"]"
176
+ }
177
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.de.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die „Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 € ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
4
+ "decoded_text": "Bereits eine Woche vorher am Samstag, 2. Dezember ist die <unk>Püngel-Weihnacht“ in Siegburg-Kaldauen um 18 Uhr (Einlass 17.30 Uhr) im Restaurant Kaldauer Hof zu hören. Hier ist im Eintrittspreis von 18,50 <unk> ein Abendessen enthalten. Auch hier gibt es einen Mitsingteil für die Gäste.",
5
+ "diff": [
6
+ "replace text[58:59] --> decoded_text[58:63] '„' --> '<unk>'",
7
+ "replace text[202:203] --> decoded_text[206:211] '€' --> '<unk>'"
8
+ ],
9
+ "n_oov_chars": 2,
10
+ "oov_ratio": 0.007142857142857143,
11
+ "oov_charset": "[\"„\", \"€\"]"
12
+ },
13
+ {
14
+ "text": "Der Chor bietet noch einen weiteren Termin im Rahmen der „Püngel-Weihnacht“ an.",
15
+ "decoded_text": "Der Chor bietet noch einen weiteren Termin im Rahmen der <unk>Püngel-Weihnacht“ an.",
16
+ "diff": [
17
+ "replace text[57:58] --> decoded_text[57:62] '„' --> '<unk>'"
18
+ ],
19
+ "n_oov_chars": 1,
20
+ "oov_ratio": 0.012658227848101266,
21
+ "oov_charset": "[\"„\"]"
22
+ },
23
+ {
24
+ "text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschließlich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
25
+ "decoded_text": "Die Verarbeitung kann auch auf elektronischem Wege erfolgen. Dies ist insbesondere dann der Fall, wenn ein Bewerber entsprechende Bewerbungsunterlagen auf dem elektronischen Wege, beispielsweise per E-Mail oder über ein auf der Internetseite befindliches Webformular, an den für die Verarbeitung Verantwortlichen übermittelt. Sollten Sie über einen Account in einem berufsorientierten sozialen Netzwerk wie etwa Xing oder LinkedIn verfügen, können wir die Daten auch von Ihrer öffentlich einsehbaren Profilseite erheben. Zwecke der Verarbeitung und Rechtsgrundlage Wir verarbeiten Ihre personenbezogenen Daten ausschlie<unk>lich zum Zwecke der Durchführung des Bewerbungsverfahrens.",
26
+ "diff": [
27
+ "replace text[619:620] --> decoded_text[619:624] 'ß' --> '<unk>'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.0014749262536873156,
31
+ "oov_charset": "[\"ß\"]"
32
+ },
33
+ {
34
+ "text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschließen, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
35
+ "decoded_text": "Sofern wir mit dem Bewerber einen Anstellungsvertrag abschlie<unk>en, werden die übermittelten Daten zum Zwecke der Abwicklung des Beschäftigungsverhältnisses unter Beachtung der gesetzlichen Vorschriften gespeichert. Ansonsten werden die personenbezogenen Daten sechs Monate nach Beendigung des Bewerbungsverfahrens gelöscht, sofern einer Löschung keine sonstigen berechtigten Interessen des für die Verarbeitung Verantwortlichen entgegenstehen.",
36
+ "diff": [
37
+ "replace text[61:62] --> decoded_text[61:66] 'ß' --> '<unk>'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.0022624434389140274,
41
+ "oov_charset": "[\"ß\"]"
42
+ },
43
+ {
44
+ "text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschließlich zu Zwecken,",
45
+ "decoded_text": "Eine Weitergabe Ihrer Daten an externe Stellen erfolgt ausschlie<unk>lich zu Zwecken,",
46
+ "diff": [
47
+ "replace text[64:65] --> decoded_text[64:69] 'ß' --> '<unk>'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.012345679012345678,
51
+ "oov_charset": "[\"ß\"]"
52
+ },
53
+ {
54
+ "text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmäßig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
55
+ "decoded_text": "Sind die Daten für die Erfüllung vertraglicher oder gesetzlicher Pflichten und Rechte nicht mehr erforderlich, werden diese regelmä<unk>ig gelöscht, es sei denn, deren – befristete – Weiterverarbeitung ist zur Erfüllung der in dieser Erklärung genannten Zwecke aus einem überwiegenden berechtigten Interesse unseres Hauses erforderlich. Wir werden Ihre personenbezogenen Daten nur soweit und solange speichern, wie dies für den Zweck, für welchen sie von uns erhoben oder uns von Ihnen zur Verfügung gestellt wurden, erforderlich ist.",
56
+ "diff": [
57
+ "replace text[131:132] --> decoded_text[131:136] 'ß' --> '<unk>'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.0018867924528301887,
61
+ "oov_charset": "[\"ß\"]"
62
+ },
63
+ {
64
+ "text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis außer diesem Thread hier. Finde ich auch ein bisschen komisch.",
65
+ "decoded_text": "Dachte ich auch, aber gib das mal in google ein: auch in verschiedenen Varianten der Suchanfrage bekommst du kein Ergebnis au<unk>er diesem Thread hier. Finde ich auch ein bisschen komisch.",
66
+ "diff": [
67
+ "replace text[125:126] --> decoded_text[125:130] 'ß' --> '<unk>'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.005405405405405406,
71
+ "oov_charset": "[\"ß\"]"
72
+ },
73
+ {
74
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
75
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
76
+ "diff": [
77
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "Weiß man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
85
+ "decoded_text": "Wei<unk> man denn, mit wem die Schlägerei vorher stattfand? Waren ALLE 3 um die Zeit voneinander getrennt? Wie hoch war der Balkon?",
86
+ "diff": [
87
+ "replace text[3:4] --> decoded_text[3:8] 'ß' --> '<unk>'"
88
+ ],
89
+ "n_oov_chars": 1,
90
+ "oov_ratio": 0.007874015748031496,
91
+ "oov_charset": "[\"ß\"]"
92
+ },
93
+ {
94
+ "text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note „Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
95
+ "decoded_text": "265 junge Damen und Herren von insgesamt 75.000 Auszubildenden, die ihre Berufsausbildung 2016 in rund 130 IHK-Berufen mit der Note <unk>Sehr gut“ abgeschlossen haben, gehören zu den Besten in Nordrhein-Westfalen. 19 von ihnen kommen aus dem Bezirk der IHK Mittlerer Niederrhein.",
96
+ "diff": [
97
+ "replace text[132:133] --> decoded_text[132:137] '„' --> '<unk>'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.0036363636363636364,
101
+ "oov_charset": "[\"„\"]"
102
+ }
103
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.en.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about £1.50.",
4
+ "decoded_text": "No extra costs for access? Asking for a disabled access hack if I want to take my chair (Quickie Ti - weighs little, I can just pick it up and put it in, no need for time-consuming ramps), to the pub here in Wirral jacks up the normal fair by about <unk>1.50.",
5
+ "diff": [
6
+ "replace text[249:250] --> decoded_text[249:254] '£' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.00392156862745098,
10
+ "oov_charset": "[\"£\"]"
11
+ },
12
+ {
13
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
14
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
15
+ "diff": [
16
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
24
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
25
+ "diff": [
26
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
34
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
35
+ "diff": [
36
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
44
+ "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
45
+ "diff": [
46
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
47
+ ],
48
+ "n_oov_chars": 1,
49
+ "oov_ratio": 0.005813953488372093,
50
+ "oov_charset": "[\"​\"]"
51
+ },
52
+ {
53
+ "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
54
+ "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
55
+ "diff": [
56
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
57
+ ],
58
+ "n_oov_chars": 1,
59
+ "oov_ratio": 0.005405405405405406,
60
+ "oov_charset": "[\"​\"]"
61
+ },
62
+ {
63
+ "text": "Would love some tatts, but too much of a wimp to get them! 😥",
64
+ "decoded_text": "Would love some tatts, but too much of a wimp to get them! <unk>",
65
+ "diff": [
66
+ "replace text[59:60] --> decoded_text[59:64] '😥' --> '<unk>'"
67
+ ],
68
+ "n_oov_chars": 1,
69
+ "oov_ratio": 0.016666666666666666,
70
+ "oov_charset": "[\"😥\"]"
71
+ },
72
+ {
73
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
74
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
75
+ "diff": [
76
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
84
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
85
+ "diff": [
86
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
94
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
95
+ "diff": [
96
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
97
+ ],
98
+ "n_oov_chars": 0,
99
+ "oov_ratio": 0.0,
100
+ "oov_charset": "[]"
101
+ }
102
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.es.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "el año natural a que correspondan.",
4
+ "decoded_text": "el a<unk>o natural a que correspondan.",
5
+ "diff": [
6
+ "replace text[4:5] --> decoded_text[4:9] 'ñ' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.029411764705882353,
10
+ "oov_charset": "[\"ñ\"]"
11
+ },
12
+ {
13
+ "text": "a la Empresa el 50% del periodo restante en la fecha señalada",
14
+ "decoded_text": "a la Empresa el 50% del periodo restante en la fecha se<unk>alada",
15
+ "diff": [
16
+ "replace text[55:56] --> decoded_text[55:60] 'ñ' --> '<unk>'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.01639344262295082,
20
+ "oov_charset": "[\"ñ\"]"
21
+ },
22
+ {
23
+ "text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los años que están por venir.",
24
+ "decoded_text": "Os deseamos muchos más éxitos en un futuro y los mejores augurios para los a<unk>os que están por venir.",
25
+ "diff": [
26
+ "replace text[76:77] --> decoded_text[76:81] 'ñ' --> '<unk>'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.01,
30
+ "oov_charset": "[\"ñ\"]"
31
+ },
32
+ {
33
+ "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
34
+ "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
35
+ "diff": [
36
+ "replace text[77:78] --> decoded_text[77:80] '…' --> '...'",
37
+ "replace text[91:92] --> decoded_text[93:96] '…' --> '...'"
38
+ ],
39
+ "n_oov_chars": 2,
40
+ "oov_ratio": 0.01098901098901099,
41
+ "oov_charset": "[\"…\"]"
42
+ },
43
+ {
44
+ "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.",
45
+ "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.",
46
+ "diff": [
47
+ "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.0033444816053511705,
51
+ "oov_charset": "[\"…\"]"
52
+ },
53
+ {
54
+ "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
55
+ "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... <unk>Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un ni<unk>o pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
56
+ "diff": [
57
+ "delete text[206:207] --> decoded_text[206:206] '…' --> ''",
58
+ "replace text[208:212] --> decoded_text[207:216] ' ¡¡¡' --> '... <unk>'",
59
+ "replace text[313:314] --> decoded_text[317:322] 'ñ' --> '<unk>'"
60
+ ],
61
+ "n_oov_chars": 5,
62
+ "oov_ratio": 0.007246376811594203,
63
+ "oov_charset": "[\"…\", \"¡\", \"ñ\"]"
64
+ },
65
+ {
66
+ "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
67
+ "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.",
68
+ "diff": [
69
+ "replace text[80:81] --> decoded_text[80:83] '…' --> '...'",
70
+ "replace text[233:235] --> decoded_text[235:241] '……' --> '......'"
71
+ ],
72
+ "n_oov_chars": 3,
73
+ "oov_ratio": 0.010526315789473684,
74
+ "oov_charset": "[\"…\"]"
75
+ },
76
+ {
77
+ "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.",
78
+ "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.",
79
+ "diff": [
80
+ "replace text[167:168] --> decoded_text[167:170] '…' --> '...'"
81
+ ],
82
+ "n_oov_chars": 1,
83
+ "oov_ratio": 0.0049261083743842365,
84
+ "oov_charset": "[\"…\"]"
85
+ },
86
+ {
87
+ "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.",
88
+ "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.",
89
+ "diff": [
90
+ "replace text[66:67] --> decoded_text[66:69] '…' --> '...'"
91
+ ],
92
+ "n_oov_chars": 1,
93
+ "oov_ratio": 0.01,
94
+ "oov_charset": "[\"…\"]"
95
+ },
96
+ {
97
+ "text": "Es frecuente en estas fechas plantear objetivos para el nuevo año, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
98
+ "decoded_text": "Es frecuente en estas fechas plantear objetivos para el nuevo a<unk>o, pero también sucede muchas veces que éstos se olvidan al poco tiempo de haberlos planteado. Para que esto no suceda, dejamos algunas claves para establecer tus propósitos y avanzar hacia ellos, y no dejarlos en el camino a medida que transcurre el 2015.",
99
+ "diff": [
100
+ "replace text[63:64] --> decoded_text[63:68] 'ñ' --> '<unk>'"
101
+ ],
102
+ "n_oov_chars": 1,
103
+ "oov_ratio": 0.003125,
104
+ "oov_charset": "[\"ñ\"]"
105
+ }
106
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fa.diff.json ADDED
@@ -0,0 +1,180 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "آشپزخانه کوچک من: February 2012",
4
+ "decoded_text": "<unk>ا<unk> <unk> <unk>: February 2012",
5
+ "diff": [
6
+ "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> '<unk>'",
7
+ "replace text[6:8] --> decoded_text[6:11] 'نه' --> '<unk>'",
8
+ "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> '<unk>'",
9
+ "replace text[14:16] --> decoded_text[18:23] 'من' --> '<unk>'"
10
+ ],
11
+ "n_oov_chars": 13,
12
+ "oov_ratio": 0.41935483870967744,
13
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]"
14
+ },
15
+ {
16
+ "text": "آشپزخانه کوچک من",
17
+ "decoded_text": "<unk>ا<unk> <unk> <unk>",
18
+ "diff": [
19
+ "replace text[0:5] --> decoded_text[0:5] 'آشپزخ' --> '<unk>'",
20
+ "replace text[6:8] --> decoded_text[6:11] 'نه' --> '<unk>'",
21
+ "replace text[9:13] --> decoded_text[12:17] 'کوچک' --> '<unk>'",
22
+ "replace text[14:16] --> decoded_text[18:23] 'من' --> '<unk>'"
23
+ ],
24
+ "n_oov_chars": 13,
25
+ "oov_ratio": 0.8125,
26
+ "oov_charset": "[\"آ\", \"ش\", \"پ\", \"ز\", \"خ\", \"ن\", \"ه\", \"ک\", \"و\", \"چ\", \"م\"]"
27
+ },
28
+ {
29
+ "text": "بکینگ پودر:2 قاشق چای خوری",
30
+ "decoded_text": "<unk> <unk>:2 <unk>ا<unk> <unk>ا<unk> <unk>",
31
+ "diff": [
32
+ "replace text[0:5] --> decoded_text[0:5] 'بکینگ' --> '<unk>'",
33
+ "replace text[6:10] --> decoded_text[6:11] 'پودر' --> '<unk>'",
34
+ "replace text[13:14] --> decoded_text[14:19] 'ق' --> '<unk>'",
35
+ "replace text[15:17] --> decoded_text[20:25] 'شق' --> '<unk>'",
36
+ "replace text[18:19] --> decoded_text[26:31] 'چ' --> '<unk>'",
37
+ "replace text[20:21] --> decoded_text[32:37] 'ی' --> '<unk>'",
38
+ "replace text[22:26] --> decoded_text[38:43] 'خوری' --> '<unk>'"
39
+ ],
40
+ "n_oov_chars": 18,
41
+ "oov_ratio": 0.6923076923076923,
42
+ "oov_charset": "[\"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"و\", \"د\", \"ر\", \"ق\", \"ش\", \"چ\", \"خ\"]"
43
+ },
44
+ {
45
+ "text": "تخم مرغ:2 عدد بزرگ",
46
+ "decoded_text": "<unk> <unk>:2 <unk> <unk>",
47
+ "diff": [
48
+ "replace text[0:3] --> decoded_text[0:5] 'تخم' --> '<unk>'",
49
+ "replace text[4:7] --> decoded_text[6:11] 'مرغ' --> '<unk>'",
50
+ "replace text[10:13] --> decoded_text[14:19] 'عدد' --> '<unk>'",
51
+ "replace text[14:18] --> decoded_text[20:25] 'بزرگ' --> '<unk>'"
52
+ ],
53
+ "n_oov_chars": 13,
54
+ "oov_ratio": 0.7222222222222222,
55
+ "oov_charset": "[\"ت\", \"خ\", \"م\", \"ر\", \"غ\", \"ع\", \"د\", \"ب\", \"ز\", \"گ\"]"
56
+ },
57
+ {
58
+ "text": "کره:225 گرم به دمای اتاق رسیده",
59
+ "decoded_text": "<unk>:225 <unk> <unk> <unk>ا<unk> ا<unk>ا<unk> <unk>",
60
+ "diff": [
61
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '<unk>'",
62
+ "replace text[8:11] --> decoded_text[10:15] 'گرم' --> '<unk>'",
63
+ "replace text[12:14] --> decoded_text[16:21] 'به' --> '<unk>'",
64
+ "replace text[15:17] --> decoded_text[22:27] 'دم' --> '<unk>'",
65
+ "replace text[18:19] --> decoded_text[28:33] 'ی' --> '<unk>'",
66
+ "replace text[21:22] --> decoded_text[35:40] 'ت' --> '<unk>'",
67
+ "replace text[23:24] --> decoded_text[41:46] 'ق' --> '<unk>'",
68
+ "replace text[25:30] --> decoded_text[47:52] 'رسیده' --> '<unk>'"
69
+ ],
70
+ "n_oov_chars": 18,
71
+ "oov_ratio": 0.6,
72
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"گ\", \"م\", \"ب\", \"د\", \"ی\", \"ت\", \"ق\", \"س\"]"
73
+ },
74
+ {
75
+ "text": "شکر:1و1/2 پیمانه+ 3 قاشق غذا خوری",
76
+ "decoded_text": "<unk>:1<unk>1/2 <unk>ا<unk>+ 3 <unk>ا<unk> <unk>ا <unk>",
77
+ "diff": [
78
+ "replace text[0:3] --> decoded_text[0:5] 'شکر' --> '<unk>'",
79
+ "replace text[5:6] --> decoded_text[7:12] 'و' --> '<unk>'",
80
+ "replace text[10:13] --> decoded_text[16:21] 'پیم' --> '<unk>'",
81
+ "replace text[14:16] --> decoded_text[22:27] 'نه' --> '<unk>'",
82
+ "replace text[20:21] --> decoded_text[31:36] 'ق' --> '<unk>'",
83
+ "replace text[22:24] --> decoded_text[37:42] 'شق' --> '<unk>'",
84
+ "replace text[25:27] --> decoded_text[43:48] 'غذ' --> '<unk>'",
85
+ "replace text[29:33] --> decoded_text[50:55] 'خوری' --> '<unk>'"
86
+ ],
87
+ "n_oov_chars": 18,
88
+ "oov_ratio": 0.5454545454545454,
89
+ "oov_charset": "[\"ش\", \"ک\", \"ر\", \"و\", \"پ\", \"ی\", \"م\", \"ن\", \"ه\", \"ق\", \"غ\", \"ذ\", \"خ\"]"
90
+ },
91
+ {
92
+ "text": "پودر دارچین:2 و1/2قاشق چای خوری",
93
+ "decoded_text": "<unk> <unk>ا<unk>:2 <unk>1/2<unk>ا<unk> <unk>ا<unk> <unk>",
94
+ "diff": [
95
+ "replace text[0:4] --> decoded_text[0:5] 'پودر' --> '<unk>'",
96
+ "replace text[5:6] --> decoded_text[6:11] 'د' --> '<unk>'",
97
+ "replace text[7:11] --> decoded_text[12:17] 'رچین' --> '<unk>'",
98
+ "replace text[14:15] --> decoded_text[20:25] 'و' --> '<unk>'",
99
+ "replace text[18:19] --> decoded_text[28:33] 'ق' --> '<unk>'",
100
+ "replace text[20:22] --> decoded_text[34:39] 'شق' --> '<unk>'",
101
+ "replace text[23:24] --> decoded_text[40:45] 'چ' --> '<unk>'",
102
+ "replace text[25:26] --> decoded_text[46:51] 'ی' --> '<unk>'",
103
+ "replace text[27:31] --> decoded_text[52:57] 'خوری' --> '<unk>'"
104
+ ],
105
+ "n_oov_chars": 19,
106
+ "oov_ratio": 0.6129032258064516,
107
+ "oov_charset": "[\"پ\", \"و\", \"د\", \"ر\", \"چ\", \"ی\", \"ن\", \"ق\", \"ش\", \"خ\"]"
108
+ },
109
+ {
110
+ "text": "فر رو روی 350 درجه فارنهایت روشن کنید",
111
+ "decoded_text": "<unk> <unk> <unk> 350 <unk> <unk>ا<unk>ا<unk> <unk> <unk>",
112
+ "diff": [
113
+ "replace text[0:2] --> decoded_text[0:5] 'فر' --> '<unk>'",
114
+ "replace text[3:5] --> decoded_text[6:11] 'رو' --> '<unk>'",
115
+ "replace text[6:9] --> decoded_text[12:17] 'روی' --> '<unk>'",
116
+ "replace text[14:18] --> decoded_text[22:27] 'درجه' --> '<unk>'",
117
+ "replace text[19:20] --> decoded_text[28:33] 'ف' --> '<unk>'",
118
+ "replace text[21:24] --> decoded_text[34:39] 'رنه' --> '<unk>'",
119
+ "replace text[25:27] --> decoded_text[40:45] 'یت' --> '<unk>'",
120
+ "replace text[28:32] --> decoded_text[46:51] 'روشن' --> '<unk>'",
121
+ "replace text[33:37] --> decoded_text[52:57] 'کنید' --> '<unk>'"
122
+ ],
123
+ "n_oov_chars": 25,
124
+ "oov_ratio": 0.6756756756756757,
125
+ "oov_charset": "[\"ف\", \"ر\", \"و\", \"ی\", \"د\", \"ج\", \"ه\", \"ن\", \"ت\", \"ش\", \"ک\"]"
126
+ },
127
+ {
128
+ "text": "کره رو با شکر هم بزنید تا یکدست و کرمی بشه تخم مرغها رو دونه دونه اضافه کنید و هم بزنید",
129
+ "decoded_text": "<unk> <unk> <unk>ا <unk> <unk> <unk> <unk>ا <unk> <unk> <unk> <unk> <unk> <unk>ا <unk> <unk> <unk> ا<unk>ا<unk> <unk> <unk> <unk> <unk>",
130
+ "diff": [
131
+ "replace text[0:3] --> decoded_text[0:5] 'کره' --> '<unk>'",
132
+ "replace text[4:6] --> decoded_text[6:11] 'رو' --> '<unk>'",
133
+ "replace text[7:8] --> decoded_text[12:17] 'ب' --> '<unk>'",
134
+ "replace text[10:13] --> decoded_text[19:24] 'شکر' --> '<unk>'",
135
+ "replace text[14:16] --> decoded_text[25:30] 'هم' --> '<unk>'",
136
+ "replace text[17:22] --> decoded_text[31:36] 'بزنید' --> '<unk>'",
137
+ "replace text[23:24] --> decoded_text[37:42] 'ت' --> '<unk>'",
138
+ "replace text[26:31] --> decoded_text[44:49] 'یکدست' --> '<unk>'",
139
+ "replace text[32:33] --> decoded_text[50:55] 'و' --> '<unk>'",
140
+ "replace text[34:38] --> decoded_text[56:61] 'کرمی' --> '<unk>'",
141
+ "replace text[39:42] --> decoded_text[62:67] 'بشه' --> '<unk>'",
142
+ "replace text[43:46] --> decoded_text[68:73] 'تخم' --> '<unk>'",
143
+ "replace text[47:51] --> decoded_text[74:79] 'مرغه' --> '<unk>'",
144
+ "replace text[53:55] --> decoded_text[81:86] 'رو' --> '<unk>'",
145
+ "replace text[56:60] --> decoded_text[87:92] 'دونه' --> '<unk>'",
146
+ "replace text[61:65] --> decoded_text[93:98] 'دونه' --> '<unk>'",
147
+ "replace text[67:68] --> decoded_text[100:105] 'ض' --> '<unk>'",
148
+ "replace text[69:71] --> decoded_text[106:111] 'فه' --> '<unk>'",
149
+ "replace text[72:76] --> decoded_text[112:117] 'کنید' --> '<unk>'",
150
+ "replace text[77:78] --> decoded_text[118:123] 'و' --> '<unk>'",
151
+ "replace text[79:81] --> decoded_text[124:129] 'هم' --> '<unk>'",
152
+ "replace text[82:87] --> decoded_text[130:135] 'بزنید' --> '<unk>'"
153
+ ],
154
+ "n_oov_chars": 62,
155
+ "oov_ratio": 0.7126436781609196,
156
+ "oov_charset": "[\"ک\", \"ر\", \"ه\", \"و\", \"ب\", \"ش\", \"م\", \"ز\", \"ن\", \"ی\", \"د\", \"ت\", \"س\", \"خ\", \"غ\", \"ض\", \"ف\"]"
157
+ },
158
+ {
159
+ "text": "ارد و بکینگ پودر و نمک رو الک کنید و اضافه کنید",
160
+ "decoded_text": "ا<unk> <unk> <unk> <unk> <unk> <unk> <unk> ال<unk> <unk> <unk> ا<unk>ا<unk> <unk>",
161
+ "diff": [
162
+ "replace text[1:3] --> decoded_text[1:6] 'رد' --> '<unk>'",
163
+ "replace text[4:5] --> decoded_text[7:12] 'و' --> '<unk>'",
164
+ "replace text[6:11] --> decoded_text[13:18] 'بکینگ' --> '<unk>'",
165
+ "replace text[12:16] --> decoded_text[19:24] 'پودر' --> '<unk>'",
166
+ "replace text[17:18] --> decoded_text[25:30] 'و' --> '<unk>'",
167
+ "replace text[19:22] --> decoded_text[31:36] 'نمک' --> '<unk>'",
168
+ "replace text[23:25] --> decoded_text[37:42] 'رو' --> '<unk>'",
169
+ "replace text[28:29] --> decoded_text[45:50] 'ک' --> '<unk>'",
170
+ "replace text[30:34] --> decoded_text[51:56] 'کنید' --> '<unk>'",
171
+ "replace text[35:36] --> decoded_text[57:62] 'و' --> '<unk>'",
172
+ "replace text[38:39] --> decoded_text[64:69] 'ض' --> '<unk>'",
173
+ "replace text[40:42] --> decoded_text[70:75] 'فه' --> '<unk>'",
174
+ "replace text[43:47] --> decoded_text[76:81] 'کنید' --> '<unk>'"
175
+ ],
176
+ "n_oov_chars": 31,
177
+ "oov_ratio": 0.6595744680851063,
178
+ "oov_charset": "[\"ر\", \"د\", \"و\", \"ب\", \"ک\", \"ی\", \"ن\", \"گ\", \"پ\", \"م\", \"ض\", \"ف\", \"ه\"]"
179
+ }
180
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.fr.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut être temps de le commencer.",
4
+ "decoded_text": "Bon, comme je ne suis pas le seul à avoir envisagé de créer ce sujet, je me suis dis qu'il était peut <unk>tre temps de le commencer.",
5
+ "diff": [
6
+ "replace text[102:103] --> decoded_text[102:107] 'ê' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.007751937984496124,
10
+ "oov_charset": "[\"ê\"]"
11
+ },
12
+ {
13
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
14
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
15
+ "diff": [
16
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "- Je dois être mentalement instable, par moments",
24
+ "decoded_text": "- Je dois <unk>tre mentalement instable, par moments",
25
+ "diff": [
26
+ "replace text[10:11] --> decoded_text[10:15] 'ê' --> '<unk>'"
27
+ ],
28
+ "n_oov_chars": 1,
29
+ "oov_ratio": 0.020833333333333332,
30
+ "oov_charset": "[\"ê\"]"
31
+ },
32
+ {
33
+ "text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en même temps très étourdie",
34
+ "decoded_text": "- j'ai moi aussi beaucoup de mémoire à ta manière : se souvenir de petits détails inutiles et beaucoup de choses sur les sujets qui m'intéressent, mais je suis en m<unk>me temps très étourdie",
35
+ "diff": [
36
+ "replace text[164:165] --> decoded_text[164:169] 'ê' --> '<unk>'"
37
+ ],
38
+ "n_oov_chars": 1,
39
+ "oov_ratio": 0.0053475935828877,
40
+ "oov_charset": "[\"ê\"]"
41
+ },
42
+ {
43
+ "text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a dû me garder une heure en plus pour m'expliquer des démonstrations)",
44
+ "decoded_text": "- je ne peux pas retenir quelque chose que je ne comprends pas (ce qui m'a posé quelques problèmes au collège, notamment pour les théorèmes de maths, où le prof a d<unk> me garder une heure en plus pour m'expliquer des démonstrations)",
45
+ "diff": [
46
+ "replace text[164:165] --> decoded_text[164:169] 'û' --> '<unk>'"
47
+ ],
48
+ "n_oov_chars": 1,
49
+ "oov_ratio": 0.004347826086956522,
50
+ "oov_charset": "[\"û\"]"
51
+ },
52
+ {
53
+ "text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand même)",
54
+ "decoded_text": "- quand quelqu'un critique quelque chose (ex. plan Vigipirate) j'essaie tout de suite de réfléchir à une autre solution (bon ça c'est normal mais je le dis quand m<unk>me)",
55
+ "diff": [
56
+ "replace text[163:164] --> decoded_text[163:168] 'ê' --> '<unk>'"
57
+ ],
58
+ "n_oov_chars": 1,
59
+ "oov_ratio": 0.005988023952095809,
60
+ "oov_charset": "[\"ê\"]"
61
+ },
62
+ {
63
+ "text": "- je préfère largement passer du temps avec les gens de mon âge ou plus ou moins (généralement pas mon âge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
64
+ "decoded_text": "- je préfère largement passer du temps avec les gens de mon <unk>ge ou plus ou moins (généralement pas mon <unk>ge pile-poil, la plupart de mes amis ont un ou deux ans de plus que moi)",
65
+ "diff": [
66
+ "replace text[60:61] --> decoded_text[60:65] 'â' --> '<unk>'",
67
+ "replace text[103:104] --> decoded_text[107:112] 'â' --> '<unk>'"
68
+ ],
69
+ "n_oov_chars": 2,
70
+ "oov_ratio": 0.011363636363636364,
71
+ "oov_charset": "[\"â\"]"
72
+ },
73
+ {
74
+ "text": "- j'aime chanter, faire du théâtre et provoquer des émotions chez les gens",
75
+ "decoded_text": "- j'aime chanter, faire du thé<unk>tre et provoquer des émotions chez les gens",
76
+ "diff": [
77
+ "replace text[30:31] --> decoded_text[30:35] 'â' --> '<unk>'"
78
+ ],
79
+ "n_oov_chars": 1,
80
+ "oov_ratio": 0.013513513513513514,
81
+ "oov_charset": "[\"â\"]"
82
+ },
83
+ {
84
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
85
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère <unk>tre une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconna<unk>tre quand j'ai tort",
86
+ "diff": [
87
+ "replace text[49:50] --> decoded_text[49:54] 'ê' --> '<unk>'",
88
+ "delete text[150:151] --> decoded_text[154:154] ' ' --> ''",
89
+ "replace text[170:171] --> decoded_text[173:178] 'î' --> '<unk>'"
90
+ ],
91
+ "n_oov_chars": 2,
92
+ "oov_ratio": 0.010526315789473684,
93
+ "oov_charset": "[\"ê\", \"î\"]"
94
+ },
95
+ {
96
+ "text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des êtres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-être trop bien que tout le monde est différent",
97
+ "decoded_text": "- je vois les autres comme... ben... des gens normaux, quoi... je vois mes amis comme des <unk>tres humains vivant plus ou moins sur Terre (du moins la majorité ), mais je Cornichonçois peut-<unk>tre trop bien que tout le monde est différent",
98
+ "diff": [
99
+ "replace text[90:91] --> decoded_text[90:95] 'ê' --> '<unk>'",
100
+ "replace text[187:188] --> decoded_text[191:196] 'ê' --> '<unk>'"
101
+ ],
102
+ "n_oov_chars": 2,
103
+ "oov_ratio": 0.008583690987124463,
104
+ "oov_charset": "[\"ê\"]"
105
+ }
106
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ja.diff.json ADDED
@@ -0,0 +1,109 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
4
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
5
+ "diff": [
6
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.02702702702702703,
10
+ "oov_charset": "[\"!\"]"
11
+ },
12
+ {
13
+ "text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整備されてる圏央道を越えるとお世話になってるボウリング場が見えて来ました。",
14
+ "decoded_text": "確実に春が近づいてることを肌で感じることが出来ました 着々と整<unk>されてる<unk>央道を越えるとお世話になってるボウリング場が見えて来ました。",
15
+ "diff": [
16
+ "replace text[31:32] --> decoded_text[31:36] '備' --> '<unk>'",
17
+ "replace text[36:37] --> decoded_text[40:45] '圏' --> '<unk>'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.029850746268656716,
21
+ "oov_charset": "[\"備\", \"圏\"]"
22
+ },
23
+ {
24
+ "text": "うぅ〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
25
+ "decoded_text": "う<unk>〜〜、私が途中でトイレに行きたくなってしまい、通り道にあったケンタに変更しちゃいました。",
26
+ "diff": [
27
+ "replace text[1:2] --> decoded_text[1:6] 'ぅ' --> '<unk>'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.021739130434782608,
31
+ "oov_charset": "[\"ぅ\"]"
32
+ },
33
+ {
34
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
35
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
36
+ "diff": [
37
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
38
+ ],
39
+ "n_oov_chars": 1,
40
+ "oov_ratio": 0.02040816326530612,
41
+ "oov_charset": "[\"1\"]"
42
+ },
43
+ {
44
+ "text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの診断をもらっていました。",
45
+ "decoded_text": "その時点で先生からはおそらく『角膜ジストロフィー』であろうとの<unk>断をもらっていました。",
46
+ "diff": [
47
+ "replace text[31:32] --> decoded_text[31:36] '診' --> '<unk>'"
48
+ ],
49
+ "n_oov_chars": 1,
50
+ "oov_ratio": 0.023255813953488372,
51
+ "oov_charset": "[\"診\"]"
52
+ },
53
+ {
54
+ "text": "ただ、これまでお散歩仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
55
+ "decoded_text": "ただ、これまでお散<unk>仲間からは指摘とかされたことはないので、こちらから言わなければそんなに目立つ程ではないんですけどね。",
56
+ "diff": [
57
+ "replace text[9:10] --> decoded_text[9:14] '歩' --> '<unk>'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.016666666666666666,
61
+ "oov_charset": "[\"歩\"]"
62
+ },
63
+ {
64
+ "text": "昔はヒアルロン酸の目薬なども処方されてたようですが、これが効く事はないそうです。",
65
+ "decoded_text": "昔はヒアルロン酸の目<unk>なども<unk>方されてたようですが、これが<unk>く事はないそうです。",
66
+ "diff": [
67
+ "replace text[10:11] --> decoded_text[10:15] '薬' --> '<unk>'",
68
+ "replace text[14:15] --> decoded_text[18:23] '処' --> '<unk>'",
69
+ "replace text[29:30] --> decoded_text[37:42] '効' --> '<unk>'"
70
+ ],
71
+ "n_oov_chars": 3,
72
+ "oov_ratio": 0.075,
73
+ "oov_charset": "[\"薬\", \"処\", \"効\"]"
74
+ },
75
+ {
76
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
77
+ "decoded_text": "なので、エルディとのお散<unk>でも<unk>れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
78
+ "diff": [
79
+ "replace text[12:13] --> decoded_text[12:17] '歩' --> '<unk>'",
80
+ "replace text[15:16] --> decoded_text[19:24] '訪' --> '<unk>'",
81
+ "replace text[35:36] --> decoded_text[43:44] '5' --> '5'",
82
+ "replace text[51:52] --> decoded_text[59:60] '1' --> '1'"
83
+ ],
84
+ "n_oov_chars": 4,
85
+ "oov_ratio": 0.0625,
86
+ "oov_charset": "[\"歩\", \"訪\", \"5\", \"1\"]"
87
+ },
88
+ {
89
+ "text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さ��がものすごいスピードで駆け抜けていくのを目の当たりにしてちょっとビビっておりました",
90
+ "decoded_text": "前々から走ってみたかったんだけど、いつも陸上部らしき学生さんがものすごいスピードで<unk>け<unk>けていくのを目の当たりにしてちょっとビビっておりました",
91
+ "diff": [
92
+ "replace text[41:42] --> decoded_text[41:46] '駆' --> '<unk>'",
93
+ "replace text[43:44] --> decoded_text[47:52] '抜' --> '<unk>'"
94
+ ],
95
+ "n_oov_chars": 2,
96
+ "oov_ratio": 0.028169014084507043,
97
+ "oov_charset": "[\"駆\", \"抜\"]"
98
+ },
99
+ {
100
+ "text": "彼らには絶対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
101
+ "decoded_text": "彼らには<unk>対お目にかかりたくないので、この春はこれで打ち止めになっちゃうかもね。",
102
+ "diff": [
103
+ "replace text[4:5] --> decoded_text[4:9] '絶' --> '<unk>'"
104
+ ],
105
+ "n_oov_chars": 1,
106
+ "oov_ratio": 0.025,
107
+ "oov_charset": "[\"絶\"]"
108
+ }
109
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.ko.diff.json ADDED
@@ -0,0 +1,255 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "+ HOME > 라이브스코어",
4
+ "decoded_text": "+ HOME > <unk>",
5
+ "diff": [
6
+ "replace text[9:15] --> decoded_text[9:14] '라이브스코어' --> '<unk>'"
7
+ ],
8
+ "n_oov_chars": 6,
9
+ "oov_ratio": 0.4,
10
+ "oov_charset": "[\"라\", \"이\", \"브\", \"스\", \"코\", \"어\"]"
11
+ },
12
+ {
13
+ "text": "특히 주소 15~17번 홀에선 3연속 보기로 황금의제국카지노 홀아웃했다.",
14
+ "decoded_text": "<unk> <unk> 15~17<unk> <unk> 3<unk> <unk> <unk> <unk>.",
15
+ "diff": [
16
+ "replace text[0:2] --> decoded_text[0:5] '특히' --> '<unk>'",
17
+ "replace text[3:5] --> decoded_text[6:11] '주소' --> '<unk>'",
18
+ "replace text[11:12] --> decoded_text[17:22] '번' --> '<unk>'",
19
+ "replace text[13:16] --> decoded_text[23:28] '홀에선' --> '<unk>'",
20
+ "replace text[18:20] --> decoded_text[30:35] '연속' --> '<unk>'",
21
+ "replace text[21:24] --> decoded_text[36:41] '보기로' --> '<unk>'",
22
+ "replace text[25:33] --> decoded_text[42:47] '황금의제국카지노' --> '<unk>'",
23
+ "replace text[34:39] --> decoded_text[48:53] '홀아웃했다' --> '<unk>'"
24
+ ],
25
+ "n_oov_chars": 26,
26
+ "oov_ratio": 0.65,
27
+ "oov_charset": "[\"특\", \"히\", \"주\", \"소\", \"번\", \"홀\", \"에\", \"선\", \"연\", \"속\", \"보\", \"기\", \"로\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"아\", \"웃\", \"했\", \"다\"]"
28
+ },
29
+ {
30
+ "text": "1편인'신과함께-죄와 벌'이 천만을 넘은 만큼 2편을 기다린 황금의제국카지노 관객들의 기대와 주소 관심은 폭발적이다.",
31
+ "decoded_text": "1<unk>'<unk>-<unk> <unk>'<unk> <unk> <unk> <unk> 2<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
32
+ "diff": [
33
+ "replace text[1:3] --> decoded_text[1:6] '편인' --> '<unk>'",
34
+ "replace text[4:8] --> decoded_text[7:12] '신과함께' --> '<unk>'",
35
+ "replace text[9:11] --> decoded_text[13:18] '죄와' --> '<unk>'",
36
+ "replace text[12:13] --> decoded_text[19:24] '벌' --> '<unk>'",
37
+ "replace text[14:15] --> decoded_text[25:30] '이' --> '<unk>'",
38
+ "replace text[16:19] --> decoded_text[31:36] '천만을' --> '<unk>'",
39
+ "replace text[20:22] --> decoded_text[37:42] '넘은' --> '<unk>'",
40
+ "replace text[23:25] --> decoded_text[43:48] '만큼' --> '<unk>'",
41
+ "replace text[27:29] --> decoded_text[50:55] '편을' --> '<unk>'",
42
+ "replace text[30:33] --> decoded_text[56:61] '기다린' --> '<unk>'",
43
+ "replace text[34:42] --> decoded_text[62:67] '황금의제국카지노' --> '<unk>'",
44
+ "replace text[43:47] --> decoded_text[68:73] '관객들의' --> '<unk>'",
45
+ "replace text[48:51] --> decoded_text[74:79] '기대와' --> '<unk>'",
46
+ "replace text[52:54] --> decoded_text[80:85] '주소' --> '<unk>'",
47
+ "replace text[55:58] --> decoded_text[86:91] '관심은' --> '<unk>'",
48
+ "replace text[59:64] --> decoded_text[92:97] '폭발적이다' --> '<unk>'"
49
+ ],
50
+ "n_oov_chars": 47,
51
+ "oov_ratio": 0.7230769230769231,
52
+ "oov_charset": "[\"편\", \"인\", \"신\", \"과\", \"함\", \"께\", \"죄\", \"와\", \"벌\", \"이\", \"천\", \"만\", \"을\", \"넘\", \"은\", \"큼\", \"기\", \"다\", \"린\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"관\", \"객\", \"들\", \"대\", \"주\", \"소\", \"심\", \"폭\", \"발\", \"적\"]"
53
+ },
54
+ {
55
+ "text": "고려해서 주소 '대체재 일색'의 분재를 내놓을 위험이 있다. 문학의 자유를 소설가가 스스로 황금의제국카지노 출판사에 상납하는 것이다.",
56
+ "decoded_text": "<unk> <unk> '<unk> <unk>'<unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
57
+ "diff": [
58
+ "replace text[0:4] --> decoded_text[0:5] '고려해서' --> '<unk>'",
59
+ "replace text[5:7] --> decoded_text[6:11] '주소' --> '<unk>'",
60
+ "replace text[9:12] --> decoded_text[13:18] '대체재' --> '<unk>'",
61
+ "replace text[13:15] --> decoded_text[19:24] '일색' --> '<unk>'",
62
+ "replace text[16:17] --> decoded_text[25:30] '의' --> '<unk>'",
63
+ "replace text[18:21] --> decoded_text[31:36] '분재를' --> '<unk>'",
64
+ "replace text[22:25] --> decoded_text[37:42] '내놓을' --> '<unk>'",
65
+ "replace text[26:29] --> decoded_text[43:48] '위험이' --> '<unk>'",
66
+ "replace text[30:32] --> decoded_text[49:54] '있다' --> '<unk>'",
67
+ "replace text[34:37] --> decoded_text[56:61] '문학의' --> '<unk>'",
68
+ "replace text[38:41] --> decoded_text[62:67] '자유를' --> '<unk>'",
69
+ "replace text[42:46] --> decoded_text[68:73] '소설가가' --> '<unk>'",
70
+ "replace text[47:50] --> decoded_text[74:79] '스스로' --> '<unk>'",
71
+ "replace text[51:59] --> decoded_text[80:85] '황금의제국카지노' --> '<unk>'",
72
+ "replace text[60:64] --> decoded_text[86:91] '출판사에' --> '<unk>'",
73
+ "replace text[65:69] --> decoded_text[92:97] '상납하는' --> '<unk>'",
74
+ "replace text[70:73] --> decoded_text[98:103] '것이다' --> '<unk>'"
75
+ ],
76
+ "n_oov_chars": 55,
77
+ "oov_ratio": 0.7432432432432432,
78
+ "oov_charset": "[\"고\", \"려\", \"해\", \"서\", \"주\", \"소\", \"대\", \"체\", \"재\", \"일\", \"색\", \"의\", \"분\", \"를\", \"내\", \"놓\", \"을\", \"위\", \"험\", \"이\", \"있\", \"다\", \"문\", \"학\", \"자\", \"유\", \"설\", \"가\", \"스\", \"로\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"출\", \"판\", \"사\", \"에\", \"상\", \"납\", \"하\", \"는\", \"것\"]"
79
+ },
80
+ {
81
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
82
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk>(22)<unk> <unk> 4<unk>3<unk>(2<unk> <unk>) 3<unk>(.246.270.508). <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
83
+ "diff": [
84
+ "replace text[0:6] --> decoded_text[0:5] '조시도널슨의' --> '<unk>'",
85
+ "replace text[7:9] --> decoded_text[6:11] '유산' --> '<unk>'",
86
+ "replace text[10:14] --> decoded_text[12:17] '프랭클린' --> '<unk>'",
87
+ "replace text[15:17] --> decoded_text[18:23] '주소' --> '<unk>'",
88
+ "replace text[18:21] --> decoded_text[24:29] '바레토' --> '<unk>'",
89
+ "replace text[25:26] --> decoded_text[33:38] '는' --> '<unk>'",
90
+ "replace text[27:35] --> decoded_text[39:44] '황금의제국카지노' --> '<unk>'",
91
+ "replace text[37:39] --> decoded_text[46:51] '타수' --> '<unk>'",
92
+ "replace text[40:42] --> decoded_text[52:57] '안타' --> '<unk>'",
93
+ "replace text[44:46] --> decoded_text[59:64] '루타' --> '<unk>'",
94
+ "replace text[47:49] --> decoded_text[65:70] '홈런' --> '<unk>'",
95
+ "replace text[52:54] --> decoded_text[73:78] '타점' --> '<unk>'",
96
+ "delete text[59:60] --> decoded_text[83:83] ' ' --> ''",
97
+ "delete text[64:65] --> decoded_text[87:87] ' ' --> ''",
98
+ "replace text[72:75] --> decoded_text[94:99] '하지만' --> '<unk>'",
99
+ "replace text[76:79] --> decoded_text[100:105] '아직은' --> '<unk>'",
100
+ "replace text[80:84] --> decoded_text[106:111] '트레이드' --> '<unk>'",
101
+ "replace text[85:88] --> decoded_text[112:117] '당시의' --> '<unk>'",
102
+ "replace text[89:93] --> decoded_text[118:123] '기대치를' --> '<unk>'",
103
+ "replace text[94:98] --> decoded_text[124:129] '보여주지' --> '<unk>'",
104
+ "replace text[99:102] --> decoded_text[130:135] '못하고' --> '<unk>'",
105
+ "replace text[103:105] --> decoded_text[136:141] '있다' --> '<unk>'"
106
+ ],
107
+ "n_oov_chars": 62,
108
+ "oov_ratio": 0.5849056603773585,
109
+ "oov_charset": "[\"조\", \"시\", \"도\", \"널\", \"슨\", \"의\", \"유\", \"산\", \"프\", \"랭\", \"클\", \"린\", \"주\", \"소\", \"바\", \"레\", \"토\", \"는\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"타\", \"수\", \"안\", \"루\", \"홈\", \"런\", \"점\", \"하\", \"만\", \"아\", \"직\", \"은\", \"트\", \"이\", \"드\", \"당\", \"기\", \"대\", \"치\", \"를\", \"보\", \"여\", \"못\", \"고\", \"있\", \"다\"]"
110
+ },
111
+ {
112
+ "text": "여기서승리한 2팀이 준결승에 오른다. 결국 A, B조 1위는 12강-4강-결승으로 3경기를 치르지만, C, D, 황금의제국카지노 E, F조 1위는 주소 12강-6강-4강-결승으로 4경기를 해야 한다.",
113
+ "decoded_text": "<unk> 2<unk> <unk> <unk>. <unk> A, B<unk> 1<unk> 12<unk>-4<unk>-<unk> 3<unk> <unk>, C, D, <unk> E, F<unk> 1<unk> <unk> 12<unk>-6<unk>-4<unk>-<unk> 4<unk> <unk> <unk>.",
114
+ "diff": [
115
+ "replace text[0:6] --> decoded_text[0:5] '여기서승리한' --> '<unk>'",
116
+ "replace text[8:10] --> decoded_text[7:12] '팀이' --> '<unk>'",
117
+ "replace text[11:15] --> decoded_text[13:18] '준결승에' --> '<unk>'",
118
+ "replace text[16:19] --> decoded_text[19:24] '오른다' --> '<unk>'",
119
+ "replace text[21:23] --> decoded_text[26:31] '결국' --> '<unk>'",
120
+ "replace text[28:29] --> decoded_text[36:41] '조' --> '<unk>'",
121
+ "replace text[31:33] --> decoded_text[43:48] '위는' --> '<unk>'",
122
+ "replace text[36:37] --> decoded_text[51:56] '강' --> '<unk>'",
123
+ "replace text[39:40] --> decoded_text[58:63] '강' --> '<unk>'",
124
+ "replace text[41:45] --> decoded_text[64:69] '결승으로' --> '<unk>'",
125
+ "replace text[47:50] --> decoded_text[71:76] '경기를' --> '<unk>'",
126
+ "replace text[51:55] --> decoded_text[77:82] '치르지만' --> '<unk>'",
127
+ "replace text[63:71] --> decoded_text[90:95] '황금의제국카지노' --> '<unk>'",
128
+ "replace text[76:77] --> decoded_text[100:105] '조' --> '<unk>'",
129
+ "replace text[79:81] --> decoded_text[107:112] '위는' --> '<unk>'",
130
+ "replace text[82:84] --> decoded_text[113:118] '주소' --> '<unk>'",
131
+ "replace text[87:88] --> decoded_text[121:126] '강' --> '<unk>'",
132
+ "replace text[90:91] --> decoded_text[128:133] '강' --> '<unk>'",
133
+ "replace text[93:94] --> decoded_text[135:140] '강' --> '<unk>'",
134
+ "replace text[95:99] --> decoded_text[141:146] '결승으로' --> '<unk>'",
135
+ "replace text[101:104] --> decoded_text[148:153] '경기를' --> '<unk>'",
136
+ "replace text[105:107] --> decoded_text[154:159] '해야' --> '<unk>'",
137
+ "replace text[108:110] --> decoded_text[160:165] '한다' --> '<unk>'"
138
+ ],
139
+ "n_oov_chars": 60,
140
+ "oov_ratio": 0.5405405405405406,
141
+ "oov_charset": "[\"여\", \"기\", \"서\", \"승\", \"리\", \"한\", \"팀\", \"이\", \"준\", \"결\", \"에\", \"오\", \"른\", \"다\", \"국\", \"조\", \"위\", \"는\", \"강\", \"으\", \"로\", \"경\", \"를\", \"치\", \"르\", \"지\", \"만\", \"황\", \"금\", \"의\", \"제\", \"카\", \"노\", \"주\", \"소\", \"해\", \"야\"]"
142
+ },
143
+ {
144
+ "text": "또한이날 눈길을 주소 끈 것은 한 신인배우의 매니저였다. 황금의제국카지노 배우의 매니저 일을 하고 있다는 한 청취자의 사연에 박명수는 '실시간 검색어 1위'를 만들어주겠다며, 통화연결을 했다.",
145
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> '<unk> <unk> 1<unk>'<unk> <unk>, <unk> <unk>.",
146
+ "diff": [
147
+ "replace text[0:4] --> decoded_text[0:5] '또한이날' --> '<unk>'",
148
+ "replace text[5:8] --> decoded_text[6:11] '눈길을' --> '<unk>'",
149
+ "replace text[9:11] --> decoded_text[12:17] '주소' --> '<unk>'",
150
+ "replace text[12:13] --> decoded_text[18:23] '끈' --> '<unk>'",
151
+ "replace text[14:16] --> decoded_text[24:29] '것은' --> '<unk>'",
152
+ "replace text[17:18] --> decoded_text[30:35] '한' --> '<unk>'",
153
+ "replace text[19:24] --> decoded_text[36:41] '신인배우의' --> '<unk>'",
154
+ "replace text[25:30] --> decoded_text[42:47] '매니저였다' --> '<unk>'",
155
+ "replace text[32:40] --> decoded_text[49:54] '황금의제국카지노' --> '<unk>'",
156
+ "replace text[41:44] --> decoded_text[55:60] '배우의' --> '<unk>'",
157
+ "replace text[45:48] --> decoded_text[61:66] '매니저' --> '<unk>'",
158
+ "replace text[49:51] --> decoded_text[67:72] '일을' --> '<unk>'",
159
+ "replace text[52:54] --> decoded_text[73:78] '하고' --> '<unk>'",
160
+ "replace text[55:58] --> decoded_text[79:84] '있다는' --> '<unk>'",
161
+ "replace text[59:60] --> decoded_text[85:90] '한' --> '<unk>'",
162
+ "replace text[61:65] --> decoded_text[91:96] '청취자의' --> '<unk>'",
163
+ "replace text[66:69] --> decoded_text[97:102] '사연에' --> '<unk>'",
164
+ "replace text[70:74] --> decoded_text[103:108] '박명수는' --> '<unk>'",
165
+ "replace text[76:79] --> decoded_text[110:115] '실시간' --> '<unk>'",
166
+ "replace text[80:83] --> decoded_text[116:121] '검색어' --> '<unk>'",
167
+ "replace text[85:86] --> decoded_text[123:128] '위' --> '<unk>'",
168
+ "replace text[87:88] --> decoded_text[129:134] '를' --> '<unk>'",
169
+ "replace text[89:96] --> decoded_text[135:140] '만들어주겠다며' --> '<unk>'",
170
+ "replace text[98:103] --> decoded_text[142:147] '통화연결을' --> '<unk>'",
171
+ "replace text[104:106] --> decoded_text[148:153] '했다' --> '<unk>'"
172
+ ],
173
+ "n_oov_chars": 78,
174
+ "oov_ratio": 0.7289719626168224,
175
+ "oov_charset": "[\"또\", \"한\", \"이\", \"날\", \"눈\", \"길\", \"을\", \"주\", \"소\", \"끈\", \"것\", \"은\", \"신\", \"인\", \"배\", \"우\", \"의\", \"매\", \"니\", \"저\", \"였\", \"다\", \"황\", \"금\", \"제\", \"국\", \"카\", \"지\", \"노\", \"일\", \"하\", \"고\", \"있\", \"는\", \"청\", \"취\", \"자\", \"사\", \"연\", \"에\", \"박\", \"명\", \"수\", \"실\", \"시\", \"간\", \"검\", \"색\", \"어\", \"위\", \"를\", \"만\", \"들\", \"겠\", \"며\", \"통\", \"화\", \"결\", \"했\"]"
176
+ },
177
+ {
178
+ "text": "하지만이번 황금의제국카지노 시즌, 호날두와 이과인이 다시 주소 한솥밥을 먹는 일이 성사됐다. 호날두가 ‘빅 사이닝’을 통해 유벤투스로 옮겼기 때문이다.",
179
+ "decoded_text": "<unk> <unk> <unk>, <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>. <unk> ‘<unk> <unk>’<unk> <unk> <unk> <unk> <unk>.",
180
+ "diff": [
181
+ "replace text[0:5] --> decoded_text[0:5] '하지만이번' --> '<unk>'",
182
+ "replace text[6:14] --> decoded_text[6:11] '황금의제국카지노' --> '<unk>'",
183
+ "replace text[15:17] --> decoded_text[12:17] '시즌' --> '<unk>'",
184
+ "replace text[19:23] --> decoded_text[19:24] '호날두와' --> '<unk>'",
185
+ "replace text[24:28] --> decoded_text[25:30] '이과인이' --> '<unk>'",
186
+ "replace text[29:31] --> decoded_text[31:36] '다시' --> '<unk>'",
187
+ "replace text[32:34] --> decoded_text[37:42] '주소' --> '<unk>'",
188
+ "replace text[35:39] --> decoded_text[43:48] '한솥밥을' --> '<unk>'",
189
+ "replace text[40:42] --> decoded_text[49:54] '먹는' --> '<unk>'",
190
+ "replace text[43:45] --> decoded_text[55:60] '일이' --> '<unk>'",
191
+ "replace text[46:50] --> decoded_text[61:66] '성사됐다' --> '<unk>'",
192
+ "replace text[52:56] --> decoded_text[68:73] '호날두가' --> '<unk>'",
193
+ "replace text[58:59] --> decoded_text[75:80] '빅' --> '<unk>'",
194
+ "replace text[60:63] --> decoded_text[81:86] '사이닝' --> '<unk>'",
195
+ "replace text[64:65] --> decoded_text[87:92] '을' --> '<unk>'",
196
+ "replace text[66:68] --> decoded_text[93:98] '통해' --> '<unk>'",
197
+ "replace text[69:74] --> decoded_text[99:104] '유벤투스로' --> '<unk>'",
198
+ "replace text[75:78] --> decoded_text[105:110] '옮겼기' --> '<unk>'",
199
+ "replace text[79:83] --> decoded_text[111:116] '때문이다' --> '<unk>'"
200
+ ],
201
+ "n_oov_chars": 62,
202
+ "oov_ratio": 0.7380952380952381,
203
+ "oov_charset": "[\"하\", \"지\", \"만\", \"이\", \"번\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"노\", \"시\", \"즌\", \"호\", \"날\", \"두\", \"와\", \"과\", \"인\", \"다\", \"주\", \"소\", \"한\", \"솥\", \"밥\", \"을\", \"먹\", \"는\", \"일\", \"성\", \"사\", \"됐\", \"가\", \"빅\", \"닝\", \"통\", \"해\", \"유\", \"벤\", \"투\", \"스\", \"로\", \"옮\", \"겼\", \"기\", \"때\", \"문\"]"
204
+ },
205
+ {
206
+ "text": "현대캐피탈은삼성화재와 시범경기를 위해 홍천에 황금의제국카지노 주소 왔다.",
207
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
208
+ "diff": [
209
+ "replace text[0:11] --> decoded_text[0:5] '현대캐피탈은삼성화재와' --> '<unk>'",
210
+ "replace text[12:17] --> decoded_text[6:11] '시범경기를' --> '<unk>'",
211
+ "replace text[18:20] --> decoded_text[12:17] '위해' --> '<unk>'",
212
+ "replace text[21:24] --> decoded_text[18:23] '홍천에' --> '<unk>'",
213
+ "replace text[25:33] --> decoded_text[24:29] '황금의제국카지노' --> '<unk>'",
214
+ "replace text[34:36] --> decoded_text[30:35] '주소' --> '<unk>'",
215
+ "replace text[37:39] --> decoded_text[36:41] '왔다' --> '<unk>'"
216
+ ],
217
+ "n_oov_chars": 33,
218
+ "oov_ratio": 0.825,
219
+ "oov_charset": "[\"현\", \"대\", \"캐\", \"피\", \"탈\", \"은\", \"삼\", \"성\", \"화\", \"재\", \"와\", \"시\", \"범\", \"경\", \"기\", \"를\", \"위\", \"해\", \"홍\", \"천\", \"에\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"주\", \"소\", \"왔\", \"다\"]"
220
+ },
221
+ {
222
+ "text": "사실자매가 나란히 앉아 인터뷰를 한다는 게 쑥스러울 법도 한데, 주소 둘 사이에는 어떤 거리낌도 없었다. 마치 하루에 한 번씩 만나는 친구 같은 느낌이 황금의제국카지노 강했다.",
223
+ "decoded_text": "<unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>, <unk> <unk> <unk> <unk> <unk> <unk>. <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk> <unk>.",
224
+ "diff": [
225
+ "replace text[0:5] --> decoded_text[0:5] '사실자매가' --> '<unk>'",
226
+ "replace text[6:9] --> decoded_text[6:11] '나란히' --> '<unk>'",
227
+ "replace text[10:12] --> decoded_text[12:17] '앉아' --> '<unk>'",
228
+ "replace text[13:17] --> decoded_text[18:23] '인터뷰를' --> '<unk>'",
229
+ "replace text[18:21] --> decoded_text[24:29] '한다는' --> '<unk>'",
230
+ "replace text[22:23] --> decoded_text[30:35] '게' --> '<unk>'",
231
+ "replace text[24:28] --> decoded_text[36:41] '쑥스러울' --> '<unk>'",
232
+ "replace text[29:31] --> decoded_text[42:47] '법도' --> '<unk>'",
233
+ "replace text[32:34] --> decoded_text[48:53] '한데' --> '<unk>'",
234
+ "replace text[36:38] --> decoded_text[55:60] '주소' --> '<unk>'",
235
+ "replace text[39:40] --> decoded_text[61:66] '둘' --> '<unk>'",
236
+ "replace text[41:45] --> decoded_text[67:72] '사이에는' --> '<unk>'",
237
+ "replace text[46:48] --> decoded_text[73:78] '어떤' --> '<unk>'",
238
+ "replace text[49:53] --> decoded_text[79:84] '거리낌도' --> '<unk>'",
239
+ "replace text[54:57] --> decoded_text[85:90] '없었다' --> '<unk>'",
240
+ "replace text[59:61] --> decoded_text[92:97] '마치' --> '<unk>'",
241
+ "replace text[62:65] --> decoded_text[98:103] '하루에' --> '<unk>'",
242
+ "replace text[66:67] --> decoded_text[104:109] '한' --> '<unk>'",
243
+ "replace text[68:70] --> decoded_text[110:115] '번씩' --> '<unk>'",
244
+ "replace text[71:74] --> decoded_text[116:121] '만나는' --> '<unk>'",
245
+ "replace text[75:77] --> decoded_text[122:127] '친구' --> '<unk>'",
246
+ "replace text[78:80] --> decoded_text[128:133] '같은' --> '<unk>'",
247
+ "replace text[81:84] --> decoded_text[134:139] '느낌이' --> '<unk>'",
248
+ "replace text[85:93] --> decoded_text[140:145] '황금의제국카지노' --> '<unk>'",
249
+ "replace text[94:97] --> decoded_text[146:151] '강했다' --> '<unk>'"
250
+ ],
251
+ "n_oov_chars": 71,
252
+ "oov_ratio": 0.7244897959183674,
253
+ "oov_charset": "[\"사\", \"실\", \"자\", \"매\", \"가\", \"나\", \"란\", \"히\", \"앉\", \"아\", \"인\", \"터\", \"뷰\", \"를\", \"한\", \"다\", \"는\", \"게\", \"쑥\", \"스\", \"러\", \"울\", \"법\", \"도\", \"데\", \"주\", \"소\", \"둘\", \"이\", \"에\", \"어\", \"떤\", \"거\", \"리\", \"낌\", \"없\", \"었\", \"마\", \"치\", \"하\", \"루\", \"번\", \"씩\", \"만\", \"친\", \"구\", \"같\", \"은\", \"느\", \"황\", \"금\", \"의\", \"제\", \"국\", \"카\", \"지\", \"노\", \"강\", \"했\"]"
254
+ }
255
+ ]
stats/compression_rate/ClueAI.PromptCLUE-base @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,157 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
4
+ "decoded_text": "<unk>招财带什么佛牌<unk>(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
5
+ "diff": [
6
+ "replace text[0:1] --> decoded_text[0:5] '卍' --> '<unk>'",
7
+ "replace text[8:9] --> decoded_text[12:17] '卍' --> '<unk>'",
8
+ "replace text[57:58] --> decoded_text[65:66] ',' --> ','",
9
+ "replace text[95:96] --> decoded_text[103:104] ',' --> ','",
10
+ "replace text[113:114] --> decoded_text[121:122] ',' --> ','",
11
+ "replace text[136:137] --> decoded_text[144:145] ',' --> ','",
12
+ "replace text[148:149] --> decoded_text[156:157] ',' --> ','",
13
+ "replace text[168:169] --> decoded_text[176:177] ',' --> ','",
14
+ "replace text[183:184] --> decoded_text[191:192] ',' --> ','",
15
+ "replace text[213:214] --> decoded_text[221:222] ':' --> ':'"
16
+ ],
17
+ "n_oov_chars": 10,
18
+ "oov_ratio": 0.04672897196261682,
19
+ "oov_charset": "[\"卍\", \",\", \":\"]"
20
+ },
21
+ {
22
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
23
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
24
+ "diff": [
25
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
26
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
27
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
28
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
29
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
30
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
31
+ ],
32
+ "n_oov_chars": 6,
33
+ "oov_ratio": 0.04838709677419355,
34
+ "oov_charset": "[\",\", \"3\", \"5\"]"
35
+ },
36
+ {
37
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
38
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
39
+ "diff": [
40
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
41
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
42
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
43
+ ],
44
+ "n_oov_chars": 3,
45
+ "oov_ratio": 0.0375,
46
+ "oov_charset": "[\",\"]"
47
+ },
48
+ {
49
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
50
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
51
+ "diff": [
52
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
53
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
54
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
55
+ ],
56
+ "n_oov_chars": 3,
57
+ "oov_ratio": 0.038461538461538464,
58
+ "oov_charset": "[\",\"]"
59
+ },
60
+ {
61
+ "text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
62
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
63
+ "diff": [
64
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
65
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
66
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
67
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
68
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
69
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
70
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
71
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
72
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
73
+ ],
74
+ "n_oov_chars": 9,
75
+ "oov_ratio": 0.04477611940298507,
76
+ "oov_charset": "[\",\", \":\"]"
77
+ },
78
+ {
79
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
80
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
81
+ "diff": [
82
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
83
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
84
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
85
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
86
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
87
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
88
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
89
+ ],
90
+ "n_oov_chars": 7,
91
+ "oov_ratio": 0.08860759493670886,
92
+ "oov_charset": "[\",\"]"
93
+ },
94
+ {
95
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
96
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
97
+ "diff": [
98
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
99
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
100
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
101
+ ],
102
+ "n_oov_chars": 3,
103
+ "oov_ratio": 0.02608695652173913,
104
+ "oov_charset": "[\",\"]"
105
+ },
106
+ {
107
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
108
+ "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
109
+ "diff": [
110
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
111
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
112
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
113
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
114
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
115
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
116
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
117
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
118
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
119
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
120
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
121
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
122
+ ],
123
+ "n_oov_chars": 12,
124
+ "oov_ratio": 0.08759124087591241,
125
+ "oov_charset": "[\",\", \":\", \"?\"]"
126
+ },
127
+ {
128
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
129
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
130
+ "diff": [
131
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
132
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
133
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
134
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
135
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
136
+ ],
137
+ "n_oov_chars": 5,
138
+ "oov_ratio": 0.05747126436781609,
139
+ "oov_charset": "[\",\"]"
140
+ },
141
+ {
142
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
143
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
144
+ "diff": [
145
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
146
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
147
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
148
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
149
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
150
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
151
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
152
+ ],
153
+ "n_oov_chars": 7,
154
+ "oov_ratio": 0.05303030303030303,
155
+ "oov_charset": "[\",\"]"
156
+ }
157
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.ar.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
14
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
15
+ "diff": [
16
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
24
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
25
+ "diff": [
26
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
34
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
35
+ "diff": [
36
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
44
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
45
+ "diff": [
46
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
47
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
55
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
56
+ "diff": [
57
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
58
+ ],
59
+ "n_oov_chars": 0,
60
+ "oov_ratio": 0.0,
61
+ "oov_charset": "[]"
62
+ },
63
+ {
64
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
65
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
66
+ "diff": [
67
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
68
+ ],
69
+ "n_oov_chars": 0,
70
+ "oov_ratio": 0.0,
71
+ "oov_charset": "[]"
72
+ },
73
+ {
74
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
75
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
76
+ "diff": [
77
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
78
+ ],
79
+ "n_oov_chars": 0,
80
+ "oov_ratio": 0.0,
81
+ "oov_charset": "[]"
82
+ },
83
+ {
84
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
85
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
86
+ "diff": [
87
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
88
+ ],
89
+ "n_oov_chars": 0,
90
+ "oov_ratio": 0.0,
91
+ "oov_charset": "[]"
92
+ },
93
+ {
94
+ "text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين .",
95
+ "decoded_text": "واقامة دورات لمنتسبي النجدة والمرور لانهم اقرب للناس وتماسهم مع المواطنين.",
96
+ "diff": [
97
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.de.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen * !",
4
+ "decoded_text": "Du brauchst aber * Dein Licht nicht unter den Scheffel zu stellen *!",
5
+ "diff": [
6
+ "delete text[67:68] --> decoded_text[67:67] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Laut dieser Studie sind es ....",
14
+ "decoded_text": "Laut dieser Studie sind es....",
15
+ "diff": [
16
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren ...",
24
+ "decoded_text": "die Erbinformation für das Hormon Insulin aus menschlichen Zellen zu isolieren...",
25
+ "diff": [
26
+ "delete text[78:79] --> decoded_text[78:78] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
34
+ "decoded_text": "Erstmals erreichte eine Raumsonde die Ceres. Mit den beiden Kameras an Bord erkunden die Wissenschaftler aus dem Max-Planck-Institut für Sonnensystemforschung in Göttingen die dunkle Oberfläche des Zwergplaneten. Wassereis haben sie schon entdeckt. Aber ruht tief unter den Kratern auch noch ein Ozean?",
35
+ "diff": [
36
+ "replace text[134:136] --> decoded_text[134:135] 'ü' --> 'ü'"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
44
+ "decoded_text": "Der Vergleich mit der bemannten Mondlandung mag ein wenig übertrieben erscheinen, doch zweifellos gehört Rosetta zu den kühnsten Unternehmen der Raumfahrt: Zum ersten Mal in der Geschichte begleitet eine Sonde einen Kometen auf seiner Bahn um die Sonne und soll Mitte November den Lander Philae auf dessen Oberfläche absetzen. Bei der Auswertung der Bilder und Daten von 67P/Churyumov-Gerasimenko, so der Name des Schweifsterns, sitzen Wissenschaftler des Göttinger Max-Planck-Instituts für Sonnensystemforschung in der ersten Reihe.",
45
+ "diff": [
46
+ "replace text[488:490] --> decoded_text[488:489] 'ü' --> 'ü'"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
54
+ "decoded_text": "Die Sonne ist der wichtigste Energiespender der Erde und Motor des Klimas. Doch sie schickt mal mehr, mal weniger Licht zur Erde. Astronomen um Natalie Krivova erfassen am Max-Planck-Institut für Sonnensystemforschung in Göttingen diese Schwankungen der Sonnenstrahlung in Modellen, um herauszufinden, ob die Veränderungen zur Erderwärmung beitragen oder ob sie ihr entgegenwirken.",
55
+ "diff": [
56
+ "replace text[193:195] --> decoded_text[193:194] 'ü' --> 'ü'"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit ,",
64
+ "decoded_text": "E-Mountainbike: 75% vormontiert geliefert. Prüfung aller Schrauben auf Festigkeit,",
65
+ "diff": [
66
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte über seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
74
+ "decoded_text": "Da sprach David: Ich will Barmherzigkeit tun an Hanun, dem Sohn Nahas, wie sein Vater an mir Barmherzigkeit getan hat. Und sandte hin und ließ ihn trösten durch seine Knechte Ã1⁄4ber seinen Vater. Da nun die Knechte Davids ins Land der Kinder Ammon kamen,",
75
+ "diff": [
76
+ "replace text[178:179] --> decoded_text[178:181] '¼' --> '1⁄4'"
77
+ ],
78
+ "n_oov_chars": 1,
79
+ "oov_ratio": 0.00392156862745098,
80
+ "oov_charset": "[\"¼\"]"
81
+ },
82
+ {
83
+ "text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den Gürtel und ließ sie gehen.",
84
+ "decoded_text": "Da nahm Hanun die Knechte David und schor ihnen den Bart halb und schnitt ihnen die Kleider halb ab bis an den GÃ1⁄4rtel und ließ sie gehen.",
85
+ "diff": [
86
+ "replace text[113:114] --> decoded_text[113:116] '¼' --> '1⁄4'"
87
+ ],
88
+ "n_oov_chars": 1,
89
+ "oov_ratio": 0.007194244604316547,
90
+ "oov_charset": "[\"¼\"]"
91
+ },
92
+ {
93
+ "text": "Und die Kinder Ammon zogen aus und rüsteten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
94
+ "decoded_text": "Und die Kinder Ammon zogen aus und rÃ1⁄4steten sich zum Streit vor dem Eingang des Tors. Die Syrer aber von Zoba, von Rehob, von Is-Tob und von Maacha waren allein im Felde.",
95
+ "diff": [
96
+ "replace text[37:38] --> decoded_text[37:40] '¼' --> '1⁄4'"
97
+ ],
98
+ "n_oov_chars": 1,
99
+ "oov_ratio": 0.005847953216374269,
100
+ "oov_charset": "[\"¼\"]"
101
+ }
102
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.en.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything , but he's not that bad tbh.",
4
+ "decoded_text": "and yeah im a boy,and no, im not g*y, im a nice guy. i dont love his songs or anything, but he's not that bad tbh.",
5
+ "diff": [
6
+ "delete text[86:87] --> decoded_text[86:86] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented .",
14
+ "decoded_text": "Justin serenaded wonderful or better than a great I like popular songs, particularly as it is talented. all those who hate Justin are g**s because they feel jealous of him because he is handsome at the same time a rising singer and a small age. I myself appreciate the wonderful artist with this beautiful and talented.",
15
+ "diff": [
16
+ "delete text[318:319] --> decoded_text[318:318] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "Soften the landing zones with a pair of Rubber Mats , made from dyed rubber chips, heat compressed and available in dark green or brick red.",
24
+ "decoded_text": "Soften the landing zones with a pair of Rubber Mats, made from dyed rubber chips, heat compressed and available in dark green or brick red.",
25
+ "diff": [
26
+ "delete text[51:52] --> decoded_text[51:51] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "​EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
34
+ "decoded_text": "EEI Members have access to a wide range of reports, publications, communications, and other resources. In order to access the resources below, a member log in is required.",
35
+ "diff": [
36
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
37
+ ],
38
+ "n_oov_chars": 1,
39
+ "oov_ratio": 0.005813953488372093,
40
+ "oov_charset": "[\"​\"]"
41
+ },
42
+ {
43
+ "text": "​Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
44
+ "decoded_text": "Launched in 2017, AUPSE is a senior executive knowledge exchange and peer-to-peer networking platform created to accelerate operational excellence in the African electric power sector.",
45
+ "diff": [
46
+ "delete text[0:1] --> decoded_text[0:0] '\\u200b' --> ''"
47
+ ],
48
+ "n_oov_chars": 1,
49
+ "oov_ratio": 0.005405405405405406,
50
+ "oov_charset": "[\"​\"]"
51
+ },
52
+ {
53
+ "text": "We're not so rough and over the top these days, so they miiiiight survive ._.",
54
+ "decoded_text": "We're not so rough and over the top these days, so they miiiiight survive._.",
55
+ "diff": [
56
+ "delete text[73:74] --> decoded_text[73:73] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on ...",
64
+ "decoded_text": "Just finished Hulse's \"Black River\" and simply adored the book. So pretty, overall, and much like the Kent Haruf novels, such as \"Plainsong\" that I've enjoyed over the years. \"Black River\" is surely one of the best five I've read this year. Solid Pulitzer choice, in my opinion. Side note: As I've mentioned before, I surely don't understand all of the hoopla surrounding \"The Sellout,\" with so many other worthy contenders. But, what do I know? I'm only a reader. :-) Read on...",
65
+ "diff": [
66
+ "replace text[476:480] --> decoded_text[476:479] ' ...' --> '...'"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on ...",
74
+ "decoded_text": "I really don't understand all of the hoopla over THE SELLOUT. Just a so-so book, in my opinion. Minor work. I struggled through it, and can never get back the time spent on that tome. EILEEN and HONEYDEW are sooooooo much better, not to mention THE TURNER HOUSE, TSAR, DID YOU EVER, and others. I'm reading DELICIOUS FOODS right now, and think it's a major-serious contender as well. BLACK RIVER is next on my list, and I can't wait. But, what do I know? :-) Read on...",
75
+ "diff": [
76
+ "replace text[466:470] --> decoded_text[466:469] ' ...' --> '...'"
77
+ ],
78
+ "n_oov_chars": 0,
79
+ "oov_ratio": 0.0,
80
+ "oov_charset": "[]"
81
+ },
82
+ {
83
+ "text": "I have also read The Shore ,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
84
+ "decoded_text": "I have also read The Shore,Alex, yes I agree its very good, maybe a chance. The last years I have just waited to last in the year to see who the genral public have been siding and gone for that, from a collectors point of view, it would be nice if something won which did not have a 100,000 in the first print run.",
85
+ "diff": [
86
+ "delete text[26:27] --> decoded_text[26:26] ' ' --> ''"
87
+ ],
88
+ "n_oov_chars": 0,
89
+ "oov_ratio": 0.0,
90
+ "oov_charset": "[]"
91
+ },
92
+ {
93
+ "text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west ?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places ? For someone new to the country, adjusting to life here can be even much more confusing.",
94
+ "decoded_text": "Moving to K-W can be confusing for anybody: how can you explain King Street, that runs north, south, east and west?! Or streets like King and Weber, that are sometimes parallel, and yet cross each other in two places? For someone new to the country, adjusting to life here can be even much more confusing.",
95
+ "diff": [
96
+ "delete text[114:115] --> decoded_text[114:114] ' ' --> ''",
97
+ "delete text[217:218] --> decoded_text[216:216] ' ' --> ''"
98
+ ],
99
+ "n_oov_chars": 0,
100
+ "oov_ratio": 0.0,
101
+ "oov_charset": "[]"
102
+ }
103
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.es.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici…en definitiva…. MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
4
+ "decoded_text": "- Mi primer consejo es el deporte, corre, anda, juega al padel, monta en bici...en definitiva.... MUÉVETE. No necesitas más de una o dos horas al día para activarte. Despejarás tu mente.",
5
+ "diff": [
6
+ "replace text[77:78] --> decoded_text[77:80] '…' --> '...'",
7
+ "replace text[91:92] --> decoded_text[93:96] '…' --> '...'"
8
+ ],
9
+ "n_oov_chars": 2,
10
+ "oov_ratio": 0.01098901098901099,
11
+ "oov_charset": "[\"…\"]"
12
+ },
13
+ {
14
+ "text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones… etc.",
15
+ "decoded_text": "- Márcate dos o tres objetivos a conseguir. Pueden ser objetivos laborales, conseguir un ascenso o aumentar las ventas de la empresa; deportivos, correr 10 kms o terminar tu primera media maratón; familiares, pasar más tiempo con tus hijos, hermanos, amigos, planificar las próximas vacaciones... etc.",
16
+ "diff": [
17
+ "replace text[293:299] --> decoded_text[293:301] '… etc.' --> '... etc.'"
18
+ ],
19
+ "n_oov_chars": 1,
20
+ "oov_ratio": 0.0033444816053511705,
21
+ "oov_charset": "[\"…\"]"
22
+ },
23
+ {
24
+ "text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso…. ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
25
+ "decoded_text": "- Visualiza lo que implica para ti conseguir dichos objetivos, obsérvate llegando al final de esa carrera, lo fabuloso que estás al haber perdido 10 o 15 kg, lo que podrás hacer con el dinero por tu ascenso.... ¡¡¡Imagínalo!!! La imagen mental que estés creando tiene que ser lo más clara posible, como cuando un niño pide determinado juguete y no te acepta las diferentes alternativas que le das (para hacerlo cambiar de idea) porque él tiene muy bien definido que es lo que quiere. La mente tiene poderes ilimitados, si le das las herramientas necesarias para lograr tu propósito, ella trabajará sin obstáculos. Nuestra falta de visión e indecisión suele ser una buena fuente de limitantes.",
26
+ "diff": [
27
+ "replace text[206:207] --> decoded_text[206:209] '…' --> '...'"
28
+ ],
29
+ "n_oov_chars": 1,
30
+ "oov_ratio": 0.0014492753623188406,
31
+ "oov_charset": "[\"…\"]"
32
+ },
33
+ {
34
+ "text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano…), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles…… Acabas de formalizar “un contrato” contigo mismo.",
35
+ "decoded_text": "- Escribe, no importa el soporte (papel, smartphone, tablet, la palma de la mano...), que cambios debes hacer en tu vida diaria para conseguir estas metas. No olvides que deberían ser metas a corto-medio plazo, metas reales y factibles...... Acabas de formalizar “un contrato” contigo mismo.",
36
+ "diff": [
37
+ "replace text[80:81] --> decoded_text[80:83] '…' --> '...'",
38
+ "replace text[233:235] --> decoded_text[235:241] '……' --> '......'"
39
+ ],
40
+ "n_oov_chars": 3,
41
+ "oov_ratio": 0.010526315789473684,
42
+ "oov_charset": "[\"…\"]"
43
+ },
44
+ {
45
+ "text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar…. un día es largo si lo aprovechas.",
46
+ "decoded_text": "Ponerse metas es estar vivo, es la vida, todo es llegar, empezar, acabar, caer y levantarse. No caigas en tu sofá, no limites tu tiempo a ver la tele o estar en el bar.... un día es largo si lo aprovechas.",
47
+ "diff": [
48
+ "replace text[167:168] --> decoded_text[167:170] '…' --> '...'"
49
+ ],
50
+ "n_oov_chars": 1,
51
+ "oov_ratio": 0.0049261083743842365,
52
+ "oov_charset": "[\"…\"]"
53
+ },
54
+ {
55
+ "text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir…”; pon hoy mismo rumbo a tu vida.",
56
+ "decoded_text": "Seneca dijo: “no hay viento favorable para el que no sabe dónde ir...”; pon hoy mismo rumbo a tu vida.",
57
+ "diff": [
58
+ "replace text[66:67] --> decoded_text[66:69] '…' --> '...'"
59
+ ],
60
+ "n_oov_chars": 1,
61
+ "oov_ratio": 0.01,
62
+ "oov_charset": "[\"…\"]"
63
+ },
64
+ {
65
+ "text": "Actividad física , Deporte , Salud",
66
+ "decoded_text": "Actividad física, Deporte, Salud",
67
+ "diff": [
68
+ "delete text[16:17] --> decoded_text[16:16] ' ' --> ''",
69
+ "delete text[26:27] --> decoded_text[25:25] ' ' --> ''"
70
+ ],
71
+ "n_oov_chars": 0,
72
+ "oov_ratio": 0.0,
73
+ "oov_charset": "[]"
74
+ },
75
+ {
76
+ "text": "Súper! , necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
77
+ "decoded_text": "Súper!, necesito el numero 10 y 14, me haces un precio por ambos?. Gracias!",
78
+ "diff": [
79
+ "delete text[6:7] --> decoded_text[6:6] ' ' --> ''"
80
+ ],
81
+ "n_oov_chars": 0,
82
+ "oov_ratio": 0.0,
83
+ "oov_charset": "[]"
84
+ },
85
+ {
86
+ "text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio ? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior ?",
87
+ "decoded_text": "Si compro uno de 10\" y otro de 14\" me podrías hacer precio? La medida se toma en el diámetro del cuenco desde el exterior de la pared? O desde el interior?",
88
+ "diff": [
89
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
90
+ "delete text[155:156] --> decoded_text[154:154] ' ' --> ''"
91
+ ],
92
+ "n_oov_chars": 0,
93
+ "oov_ratio": 0.0,
94
+ "oov_charset": "[]"
95
+ },
96
+ {
97
+ "text": "Si , podría hacerte un precio. La medida va desde el exterior.",
98
+ "decoded_text": "Si, podría hacerte un precio. La medida va desde el exterior.",
99
+ "diff": [
100
+ "delete text[2:3] --> decoded_text[2:2] ' ' --> ''"
101
+ ],
102
+ "n_oov_chars": 0,
103
+ "oov_ratio": 0.0,
104
+ "oov_charset": "[]"
105
+ }
106
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.fa.diff.json ADDED
@@ -0,0 +1,105 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید!‏در Twitter به اشتراک بگذارید‏در Facebook به اشتراک بگذارید‏اشتراک‌گذاری در Pinterest",
4
+ "decoded_text": "با رایانامه ارسال کنیداین را در وبلاگ بنویسید! در Twitter به اشتراک بگذارید در Facebook به اشتراک بگذارید اشتراک گذاری در Pinterest",
5
+ "diff": [
6
+ "replace text[46:47] --> decoded_text[46:47] '\\u200f' --> ' '",
7
+ "replace text[75:76] --> decoded_text[75:76] '\\u200f' --> ' '",
8
+ "replace text[105:106] --> decoded_text[105:106] '\\u200f' --> ' '",
9
+ "replace text[112:113] --> decoded_text[112:113] '\\u200c' --> ' '"
10
+ ],
11
+ "n_oov_chars": 4,
12
+ "oov_ratio": 0.030534351145038167,
13
+ "oov_charset": "[\"‏\", \"‌\"]"
14
+ },
15
+ {
16
+ "text": "برچسب‌ها: شیرینی ها",
17
+ "decoded_text": "برچسب ها: شیرینی ها",
18
+ "diff": [
19
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
20
+ ],
21
+ "n_oov_chars": 1,
22
+ "oov_ratio": 0.05263157894736842,
23
+ "oov_charset": "[\"‌\"]"
24
+ },
25
+ {
26
+ "text": "برچسب‌ها: امریکایی, انجیر, شیرینی ها, کوکی ها",
27
+ "decoded_text": "برچسب ها: امریکایی, انجیر, شیرینی ها, کوکی ها",
28
+ "diff": [
29
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
30
+ ],
31
+ "n_oov_chars": 1,
32
+ "oov_ratio": 0.022222222222222223,
33
+ "oov_charset": "[\"‌\"]"
34
+ },
35
+ {
36
+ "text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک . اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
37
+ "decoded_text": "( کره از شیر درست میشه. وقتی کره رو از شیر جدا میکنن باقی مانده شیر میشه باتر میلک. اگر دسترسی به باتر میلک ندارید میتونید خودتون درستش کنید",
38
+ "diff": [
39
+ "delete text[82:83] --> decoded_text[82:82] ' ' --> ''"
40
+ ],
41
+ "n_oov_chars": 0,
42
+ "oov_ratio": 0.0,
43
+ "oov_charset": "[]"
44
+ },
45
+ {
46
+ "text": "برچسب‌ها: توت فرنگی, کیک ها",
47
+ "decoded_text": "برچسب ها: توت فرنگی, کیک ها",
48
+ "diff": [
49
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
50
+ ],
51
+ "n_oov_chars": 1,
52
+ "oov_ratio": 0.037037037037037035,
53
+ "oov_charset": "[\"‌\"]"
54
+ },
55
+ {
56
+ "text": "برچسب‌ها: انواع سوپ و اش, جو",
57
+ "decoded_text": "برچسب ها: انواع سوپ و اش, جو",
58
+ "diff": [
59
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
60
+ ],
61
+ "n_oov_chars": 1,
62
+ "oov_ratio": 0.03571428571428571,
63
+ "oov_charset": "[\"‌\"]"
64
+ },
65
+ {
66
+ "text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و ..",
67
+ "decoded_text": "بادمجانها رو بشورید و سرشون رو برش بدید و داخل بادمجانها رو خالی کنید با هر چیزی که میتونید مثل قاشق بستنی و..",
68
+ "diff": [
69
+ "delete text[108:109] --> decoded_text[108:108] ' ' --> ''"
70
+ ],
71
+ "n_oov_chars": 0,
72
+ "oov_ratio": 0.0,
73
+ "oov_charset": "[]"
74
+ },
75
+ {
76
+ "text": "برچسب‌ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
77
+ "decoded_text": "برچسب ها: بادمجان, پیش غذا, دلمه ها, غذاهای ترکی",
78
+ "diff": [
79
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
80
+ ],
81
+ "n_oov_chars": 1,
82
+ "oov_ratio": 0.020833333333333332,
83
+ "oov_charset": "[\"‌\"]"
84
+ },
85
+ {
86
+ "text": "برچسب‌ها: شکلات, کیک ها",
87
+ "decoded_text": "برچسب ها: شکلات, کیک ها",
88
+ "diff": [
89
+ "replace text[5:6] --> decoded_text[5:6] '\\u200c' --> ' '"
90
+ ],
91
+ "n_oov_chars": 1,
92
+ "oov_ratio": 0.043478260869565216,
93
+ "oov_charset": "[\"‌\"]"
94
+ },
95
+ {
96
+ "text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم .. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
97
+ "decoded_text": "بعد مقداری نمک اضافه کنید و اب بریزید \" این سوپ با اب مرغ درست میشه اما چون من گیاه خوار هستم به جاش از پودر سبزیجات استفاده کردم.. اینجـــــــــــــــا میتونید دستورش رو ببینید. (روی کلمه اینجا کیک کنید)",
98
+ "diff": [
99
+ "delete text[129:130] --> decoded_text[129:129] ' ' --> ''"
100
+ ],
101
+ "n_oov_chars": 0,
102
+ "oov_ratio": 0.0,
103
+ "oov_charset": "[]"
104
+ }
105
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.fr.diff.json ADDED
@@ -0,0 +1,102 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée ?\" le matin, il y a de fortes chances que j'oublie",
4
+ "decoded_text": "- Je peux retenir assez facilement des trucs inutiles ou sur des sujets qui m'interessent, mais sinon je n'ai pas de mémoire, par exemple si quelqu'un me dit \"tu pourras faire ça dans la soirée?\" le matin, il y a de fortes chances que j'oublie",
5
+ "diff": [
6
+ "delete text[193:194] --> decoded_text[193:193] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis !), je sais reconnaître quand j'ai tort",
14
+ "decoded_text": "- j'ai toujours beaucoup d'arguments, je préfère être une paria qu'une suiveuse, si je me dispute c'est pour une bonne raison (et c'est moi qui le dis!), je sais reconnaître quand j'ai tort",
15
+ "diff": [
16
+ "delete text[150:151] --> decoded_text[150:150] ' ' --> ''"
17
+ ],
18
+ "n_oov_chars": 0,
19
+ "oov_ratio": 0.0,
20
+ "oov_charset": "[]"
21
+ },
22
+ {
23
+ "text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non ?)",
24
+ "decoded_text": "- je ne peux pas rentrer dans un délire s'il est illogique (je me comprends, c'est le principal, non?)",
25
+ "diff": [
26
+ "delete text[100:101] --> decoded_text[100:100] ' ' --> ''"
27
+ ],
28
+ "n_oov_chars": 0,
29
+ "oov_ratio": 0.0,
30
+ "oov_charset": "[]"
31
+ },
32
+ {
33
+ "text": "Vive la non-moutonnerie !!! mais je comprends ce que tu veux dire ^^",
34
+ "decoded_text": "Vive la non-moutonnerie!!! mais je comprends ce que tu veux dire ^^",
35
+ "diff": [
36
+ "delete text[23:24] --> decoded_text[23:23] ' ' --> ''"
37
+ ],
38
+ "n_oov_chars": 0,
39
+ "oov_ratio": 0.0,
40
+ "oov_charset": "[]"
41
+ },
42
+ {
43
+ "text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime !\")",
44
+ "decoded_text": "-Je trouve la plus part des gens de mon âge particulièement stupide (ce qui provoque des fou rire à la maison, mes deux parents étant HP lorsque je sors des phrases du type \"mais j'en sais rien moi, ils sont tellement bête que je n'ai pas envie de m'interesser à ce qu'ils aime!\")",
45
+ "diff": [
46
+ "delete text[277:278] --> decoded_text[277:277] ' ' --> ''"
47
+ ],
48
+ "n_oov_chars": 0,
49
+ "oov_ratio": 0.0,
50
+ "oov_charset": "[]"
51
+ },
52
+ {
53
+ "text": "Quand les élus se réunissent-ils ?",
54
+ "decoded_text": "Quand les élus se réunissent-ils?",
55
+ "diff": [
56
+ "delete text[32:33] --> decoded_text[32:32] ' ' --> ''"
57
+ ],
58
+ "n_oov_chars": 0,
59
+ "oov_ratio": 0.0,
60
+ "oov_charset": "[]"
61
+ },
62
+ {
63
+ "text": "- Dans la vie, quel est ton surnom ? Insérez votre réponse ici",
64
+ "decoded_text": "- Dans la vie, quel est ton surnom? Insérez votre réponse ici",
65
+ "diff": [
66
+ "delete text[34:35] --> decoded_text[34:34] ' ' --> ''"
67
+ ],
68
+ "n_oov_chars": 0,
69
+ "oov_ratio": 0.0,
70
+ "oov_charset": "[]"
71
+ },
72
+ {
73
+ "text": "- Si tu étais une couleur, tu serais… Insérez votre réponse ici",
74
+ "decoded_text": "- Si tu étais une couleur, tu serais... Insérez votre réponse ici",
75
+ "diff": [
76
+ "replace text[36:37] --> decoded_text[36:39] '…' --> '...'"
77
+ ],
78
+ "n_oov_chars": 1,
79
+ "oov_ratio": 0.015873015873015872,
80
+ "oov_charset": "[\"…\"]"
81
+ },
82
+ {
83
+ "text": "- Si tu étais une plante, tu serais… Insérez votre réponse ici",
84
+ "decoded_text": "- Si tu étais une plante, tu serais... Insérez votre réponse ici",
85
+ "diff": [
86
+ "replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
87
+ ],
88
+ "n_oov_chars": 1,
89
+ "oov_ratio": 0.016129032258064516,
90
+ "oov_charset": "[\"…\"]"
91
+ },
92
+ {
93
+ "text": "- Si tu étais un aliment, tu serais… Insérez votre réponse ici",
94
+ "decoded_text": "- Si tu étais un aliment, tu serais... Insérez votre réponse ici",
95
+ "diff": [
96
+ "replace text[35:36] --> decoded_text[35:38] '…' --> '...'"
97
+ ],
98
+ "n_oov_chars": 1,
99
+ "oov_ratio": 0.016129032258064516,
100
+ "oov_charset": "[\"…\"]"
101
+ }
102
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.ja.diff.json ADDED
@@ -0,0 +1,103 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
4
+ "decoded_text": "午後から雨が心配だったので遠出はせず、『ふれあいロード』を走って来ました!",
5
+ "diff": [
6
+ "replace text[36:37] --> decoded_text[36:37] '!' --> '!'"
7
+ ],
8
+ "n_oov_chars": 1,
9
+ "oov_ratio": 0.02702702702702703,
10
+ "oov_charset": "[\"!\"]"
11
+ },
12
+ {
13
+ "text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
14
+ "decoded_text": "実は、1年程前にエルモサの右目の黒目の端によ〜く見ないと分からない程の小さな斑を見つけてたんです。",
15
+ "diff": [
16
+ "replace text[3:4] --> decoded_text[3:4] '1' --> '1'"
17
+ ],
18
+ "n_oov_chars": 1,
19
+ "oov_ratio": 0.02040816326530612,
20
+ "oov_charset": "[\"1\"]"
21
+ },
22
+ {
23
+ "text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
24
+ "decoded_text": "なので、エルディとのお散歩でも訪れたことがありません。 カタクリの花が5分咲きとの情報から今回コースの1つに取り入れてみました。",
25
+ "diff": [
26
+ "replace text[35:36] --> decoded_text[35:36] '5' --> '5'",
27
+ "replace text[51:52] --> decoded_text[51:52] '1' --> '1'"
28
+ ],
29
+ "n_oov_chars": 2,
30
+ "oov_ratio": 0.03125,
31
+ "oov_charset": "[\"5\", \"1\"]"
32
+ },
33
+ {
34
+ "text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。……でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
35
+ "decoded_text": "今日の天気予報は雨じゃなかったはず。結野アナ言っていたもん。......でもゲリラ豪雨にはご注意とも言っていた。気がする。はい、そうですね、傘持ってこなかった俺が悪いですね。",
36
+ "diff": [
37
+ "replace text[30:32] --> decoded_text[30:36] '……' --> '......'"
38
+ ],
39
+ "n_oov_chars": 2,
40
+ "oov_ratio": 0.024096385542168676,
41
+ "oov_charset": "[\"…\"]"
42
+ },
43
+ {
44
+ "text": "何故こんなものを……と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
45
+ "decoded_text": "何故こんなものを......と首を傾げて、ふと見覚えがあることに気付いた。どんなものだったのかは曖昧だが、それをどうしたかだけはよく覚えている。",
46
+ "diff": [
47
+ "replace text[8:10] --> decoded_text[8:14] '……' --> '......'"
48
+ ],
49
+ "n_oov_chars": 2,
50
+ "oov_ratio": 0.029411764705882353,
51
+ "oov_charset": "[\"…\"]"
52
+ },
53
+ {
54
+ "text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
55
+ "decoded_text": "戦時中、敵が「桂を討ち取った!」と声高々に喚くのを何度も聞いたことがある。桂に限らず、四天王のメンツは大体白羽の矢が立っていたが。",
56
+ "diff": [
57
+ "replace text[14:15] --> decoded_text[14:15] '!' --> '!'"
58
+ ],
59
+ "n_oov_chars": 1,
60
+ "oov_ratio": 0.015384615384615385,
61
+ "oov_charset": "[\"!\"]"
62
+ },
63
+ {
64
+ "text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
65
+ "decoded_text": "自分1人ではどうしようもならないのが、借金返済・多重債務の問題です。",
66
+ "diff": [
67
+ "replace text[2:3] --> decoded_text[2:3] '1' --> '1'"
68
+ ],
69
+ "n_oov_chars": 1,
70
+ "oov_ratio": 0.029411764705882353,
71
+ "oov_charset": "[\"1\"]"
72
+ },
73
+ {
74
+ "text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
75
+ "decoded_text": "潟上市の人も、まずインターネットの無料相談で、弁護士・司法書士に相談してみませんか?",
76
+ "diff": [
77
+ "replace text[41:42] --> decoded_text[41:42] '?' --> '?'"
78
+ ],
79
+ "n_oov_chars": 1,
80
+ "oov_ratio": 0.023809523809523808,
81
+ "oov_charset": "[\"?\"]"
82
+ },
83
+ {
84
+ "text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
85
+ "decoded_text": "1人で悩むより、まず弁護士・司法書士に相談することが、借金問題解決への第一歩です。",
86
+ "diff": [
87
+ "replace text[0:1] --> decoded_text[0:1] '1' --> '1'"
88
+ ],
89
+ "n_oov_chars": 1,
90
+ "oov_ratio": 0.024390243902439025,
91
+ "oov_charset": "[\"1\"]"
92
+ },
93
+ {
94
+ "text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
95
+ "decoded_text": "潟上市で任意整理や債務整理について、弁護士・司法書士へ無料相談してみては?365日・24時間受付可能な相談事務所を紹介しています。",
96
+ "diff": [
97
+ "replace text[36:37] --> decoded_text[36:37] '?' --> '?'"
98
+ ],
99
+ "n_oov_chars": 1,
100
+ "oov_ratio": 0.015384615384615385,
101
+ "oov_charset": "[\"?\"]"
102
+ }
103
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.ko.diff.json ADDED
@@ -0,0 +1,106 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246 .270 .508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
4
+ "decoded_text": "조시도널슨의 유산 프랭클린 주소 바레토(22)는 황금의제국카지노 4타수3안타(2루타 홈런) 3타점(.246.270.508). 하지만 아직은 트레이드 당시의 기대치를 보여주지 못하고 있다.",
5
+ "diff": [
6
+ "delete text[59:60] --> decoded_text[59:59] ' ' --> ''",
7
+ "delete text[64:65] --> decoded_text[63:63] ' ' --> ''"
8
+ ],
9
+ "n_oov_chars": 0,
10
+ "oov_ratio": 0.0,
11
+ "oov_charset": "[]"
12
+ },
13
+ {
14
+ "text": "언제나 좋은 글 감사합니다ㅡㅡ",
15
+ "decoded_text": "언제나 좋은 글 감사합니다ᅳᅳ",
16
+ "diff": [
17
+ "replace text[14:16] --> decoded_text[14:16] 'ㅡㅡ' --> 'ᅳᅳ'"
18
+ ],
19
+ "n_oov_chars": 2,
20
+ "oov_ratio": 0.125,
21
+ "oov_charset": "[\"ㅡ\"]"
22
+ },
23
+ {
24
+ "text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기 .083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
25
+ "decoded_text": "그러나저지의 통산 펜웨이파크 안전공원 성적은 9경기.083(36타수3안타) 1홈런 2타점으로 좋지 않다.",
26
+ "diff": [
27
+ "delete text[28:29] --> decoded_text[28:28] ' ' --> ''"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이 .228인 반면 그 안으로 들어온 공의 피안타율은 .318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
35
+ "decoded_text": "투수의목표는 (스트라이크든 볼이든) 보더라인으로 공을 던지는 것이다. 보더라인 피치의 안전공원 피안타율이.228인 반면 그 안으로 들어온 공의 피안타율은.318에 달한다. 투수에게 스트라이크를 던지는 능력이 컨트롤이라면 보더라인 피치를 던지는 능력은 커맨드다.",
36
+ "diff": [
37
+ "delete text[58:59] --> decoded_text[58:58] ' ' --> ''",
38
+ "delete text[86:87] --> decoded_text[85:85] ' ' --> ''"
39
+ ],
40
+ "n_oov_chars": 0,
41
+ "oov_ratio": 0.0,
42
+ "oov_charset": "[]"
43
+ },
44
+ {
45
+ "text": "좋은 자료 감사합니다ㅡ0ㅡ",
46
+ "decoded_text": "좋은 자료 감사합니다ᅳ0ᅳ",
47
+ "diff": [
48
+ "replace text[11:12] --> decoded_text[11:12] 'ㅡ' --> 'ᅳ'",
49
+ "replace text[13:14] --> decoded_text[13:14] 'ㅡ' --> 'ᅳ'"
50
+ ],
51
+ "n_oov_chars": 2,
52
+ "oov_ratio": 0.14285714285714285,
53
+ "oov_charset": "[\"ㅡ\"]"
54
+ },
55
+ {
56
+ "text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337 .425 .561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
57
+ "decoded_text": "코리시거는 3타수3안타 1홈런(4호) 1타점 1볼넷(.337.425.561). 매팅리 감독은 빠르게 적응한 시거에 대한 입장을 이미 바꾼 상태다(당초 매팅리는 시거의 역할은 롤린스가 돌아올 때까지라고 축구일정 선을 그었다).",
58
+ "diff": [
59
+ "delete text[33:34] --> decoded_text[33:33] ' ' --> ''",
60
+ "delete text[38:39] --> decoded_text[37:37] ' ' --> ''"
61
+ ],
62
+ "n_oov_chars": 0,
63
+ "oov_ratio": 0.0,
64
+ "oov_charset": "[]"
65
+ },
66
+ {
67
+ "text": "*⁴시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)",
68
+ "decoded_text": "*4시즌 백투백일정 이틀째 14경기 전승. 골든스테이트는 같은 부문 16경기 15승 1패다.(밀워키에게 일격을 당해 개막 축구일정 24연승 행진이 중단되었다)",
69
+ "diff": [
70
+ "replace text[1:2] --> decoded_text[1:2] '⁴' --> '4'"
71
+ ],
72
+ "n_oov_chars": 1,
73
+ "oov_ratio": 0.011363636363636364,
74
+ "oov_charset": "[\"⁴\"]"
75
+ },
76
+ {
77
+ "text": "*¹이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.",
78
+ "decoded_text": "*1이번 시즌을 끝으로 5년 6,000만 달러 계약이 앰파이어카지노 마감된다.",
79
+ "diff": [
80
+ "replace text[1:2] --> decoded_text[1:2] '¹' --> '1'"
81
+ ],
82
+ "n_oov_chars": 1,
83
+ "oov_ratio": 0.023255813953488372,
84
+ "oov_charset": "[\"¹\"]"
85
+ },
86
+ {
87
+ "text": "◇오승환 앰파이어카지노 vs 강정호…내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.",
88
+ "decoded_text": "◇오승환 앰파이어카지노 vs 강정호...내셔널리그 중부지구 흥행요소 = 올해 시범경기에서 한국인 투수와 타자가 동시에 등장하는 장면을 더는 볼 수 없다.",
89
+ "diff": [
90
+ "replace text[19:20] --> decoded_text[19:22] '…' --> '...'"
91
+ ],
92
+ "n_oov_chars": 1,
93
+ "oov_ratio": 0.012048192771084338,
94
+ "oov_charset": "[\"…\"]"
95
+ },
96
+ {
97
+ "text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *¹토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.",
98
+ "decoded_text": "등도4쿼터초중반 달아나는 과정에서 높은 생산력을 자랑한다. *1토론토는 여러 차례 언급했듯이 2017-18시즌 이견의 여지가 없는 벤치전력 앰파이어카지노 1위 팀이다.",
99
+ "diff": [
100
+ "replace text[34:35] --> decoded_text[34:35] '¹' --> '1'"
101
+ ],
102
+ "n_oov_chars": 1,
103
+ "oov_ratio": 0.010752688172043012,
104
+ "oov_charset": "[\"¹\"]"
105
+ }
106
+ ]
stats/compression_rate/CohereForAI.aya-101 @ cc100.zh-Hans.diff.json ADDED
@@ -0,0 +1,155 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
4
+ "decoded_text": "卍招财带什么佛牌卍(www.suzastampin.com)卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的。近日,编辑专门联系到山西传奇北京现代汽车4S店得知,店内朗动车型有现车供应,现阶段购车可享受最高6000元优惠幅度,具体的车型和价格情况请见下表,同时感兴趣的朋友还可致电4008112233转3456详询:",
5
+ "diff": [
6
+ "replace text[57:58] --> decoded_text[57:58] ',' --> ','",
7
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
8
+ "replace text[113:114] --> decoded_text[113:114] ',' --> ','",
9
+ "replace text[136:137] --> decoded_text[136:137] ',' --> ','",
10
+ "replace text[148:149] --> decoded_text[148:149] ',' --> ','",
11
+ "replace text[168:169] --> decoded_text[168:169] ',' --> ','",
12
+ "replace text[183:184] --> decoded_text[183:184] ',' --> ','",
13
+ "replace text[213:214] --> decoded_text[213:214] ':' --> ':'"
14
+ ],
15
+ "n_oov_chars": 8,
16
+ "oov_ratio": 0.037383177570093455,
17
+ "oov_charset": "[\",\", \":\"]"
18
+ },
19
+ {
20
+ "text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
21
+ "decoded_text": "一个类似美国大片《幸福终点站》的案例令中国驻圣彼得堡领事官胡滨印象深刻。由于行前未能仔细核对签证有效期,一对赴俄罗斯旅游的中国夫妇因为签证过期差点被困在俄罗斯。在胡滨的协助下,这对夫妇经历了惊心动魄的3小时,终于在飞机起飞前5分钟,登上返程的航班。",
22
+ "diff": [
23
+ "replace text[51:52] --> decoded_text[51:52] ',' --> ','",
24
+ "replace text[87:88] --> decoded_text[87:88] ',' --> ','",
25
+ "replace text[100:101] --> decoded_text[100:101] '3' --> '3'",
26
+ "replace text[103:104] --> decoded_text[103:104] ',' --> ','",
27
+ "replace text[112:113] --> decoded_text[112:113] '5' --> '5'",
28
+ "replace text[115:116] --> decoded_text[115:116] ',' --> ','"
29
+ ],
30
+ "n_oov_chars": 6,
31
+ "oov_ratio": 0.04838709677419355,
32
+ "oov_charset": "[\",\", \"3\", \"5\"]"
33
+ },
34
+ {
35
+ "text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
36
+ "decoded_text": "招财带什么佛牌张德江在致辞中表示,中法建交开启了中法两个伟大国家友好关系的新纪元,树立了不同社会制度国家和平共处的新典范,对国际战略格局产生了重大而深远的影响。",
37
+ "diff": [
38
+ "replace text[16:17] --> decoded_text[16:17] ',' --> ','",
39
+ "replace text[40:41] --> decoded_text[40:41] ',' --> ','",
40
+ "replace text[60:61] --> decoded_text[60:61] ',' --> ','"
41
+ ],
42
+ "n_oov_chars": 3,
43
+ "oov_ratio": 0.0375,
44
+ "oov_charset": "[\",\"]"
45
+ },
46
+ {
47
+ "text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
48
+ "decoded_text": "招财带什么佛牌科斯格罗夫一直供职于军队,曾被派往马来西亚、越南、英国、印度、美国工作。1999年,他成为联合国驻东帝汶部队司令,监督东帝汶向独立国家的过渡。",
49
+ "diff": [
50
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
51
+ "replace text[48:49] --> decoded_text[48:49] ',' --> ','",
52
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
53
+ ],
54
+ "n_oov_chars": 3,
55
+ "oov_ratio": 0.038461538461538464,
56
+ "oov_charset": "[\",\"]"
57
+ },
58
+ {
59
+ "text": "1月28日电据香港《明报》消息,在庆��披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
60
+ "decoded_text": "1月28日电据香港《明报》消息,在庆祝披头士进军美国音乐市场50周年的纪念日子,格莱美向两名仅存成员:保罗麦卡尼及灵高史达(RingoStarr)颁发终身成就奖,显得别具意义。为了隆重其事,大会请来金像影后茱莉亚••罗伯茨(JuliaRoberts)负责介绍二人出场,保罗在拍档的鼓声和应下,先献唱新歌《QueenieEye》,然后轮到后者演绎旧作《Photograph》,带领歌迷重温昔日的美好情怀。",
61
+ "diff": [
62
+ "replace text[15:16] --> decoded_text[15:16] ',' --> ','",
63
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
64
+ "replace text[50:51] --> decoded_text[50:51] ':' --> ':'",
65
+ "replace text[80:81] --> decoded_text[80:81] ',' --> ','",
66
+ "replace text[94:95] --> decoded_text[94:95] ',' --> ','",
67
+ "replace text[133:134] --> decoded_text[133:134] ',' --> ','",
68
+ "replace text[145:146] --> decoded_text[145:146] ',' --> ','",
69
+ "replace text[163:164] --> decoded_text[163:164] ',' --> ','",
70
+ "replace text[186:187] --> decoded_text[186:187] ',' --> ','"
71
+ ],
72
+ "n_oov_chars": 9,
73
+ "oov_ratio": 0.04477611940298507,
74
+ "oov_charset": "[\",\", \":\"]"
75
+ },
76
+ {
77
+ "text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
78
+ "decoded_text": "佛牌绳哪里有卖到达目的地后,记者全程的总车费是14元,但司机到账21元,因此,司机给记者7元,除去之前支付的1元,记者净赚6元,还免费乘了本应支付14元的车。",
79
+ "diff": [
80
+ "replace text[13:14] --> decoded_text[13:14] ',' --> ','",
81
+ "replace text[26:27] --> decoded_text[26:27] ',' --> ','",
82
+ "replace text[35:36] --> decoded_text[35:36] ',' --> ','",
83
+ "replace text[38:39] --> decoded_text[38:39] ',' --> ','",
84
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
85
+ "replace text[56:57] --> decoded_text[56:57] ',' --> ','",
86
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','"
87
+ ],
88
+ "n_oov_chars": 7,
89
+ "oov_ratio": 0.08860759493670886,
90
+ "oov_charset": "[\",\"]"
91
+ },
92
+ {
93
+ "text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
94
+ "decoded_text": "卡尔・斯利姆于2012年加入塔塔汽车公司担任总经理一职,并负责公司在印度及国际市场上除捷豹和路虎以外的业务。这位斯坦福大学的毕业生,曾任通用汽车在中国合资公司的副总裁,上汽通用五菱公司的副总裁以及通用汽车印度公司的总裁。(方赵春)",
95
+ "diff": [
96
+ "replace text[27:28] --> decoded_text[27:28] ',' --> ','",
97
+ "replace text[65:66] --> decoded_text[65:66] ',' --> ','",
98
+ "replace text[83:84] --> decoded_text[83:84] ',' --> ','"
99
+ ],
100
+ "n_oov_chars": 3,
101
+ "oov_ratio": 0.02608695652173913,
102
+ "oov_charset": "[\",\"]"
103
+ },
104
+ {
105
+ "text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
106
+ "decoded_text": "大腕导演不可能每部作品都是你喜欢的东西,如果他一时控制不住情绪,就让他骂吧。他也是人,不是神,人就有自己的脾气。他这次执导春晚,对我也开骂:“老毕,我跟你说了这么长时间,让你走2号位,你非要走1号位,你想跟我较死劲是不是?”这也是骂人。但因为你非常了解他,他也不一定有恶意。",
107
+ "diff": [
108
+ "replace text[19:20] --> decoded_text[19:20] ',' --> ','",
109
+ "replace text[31:32] --> decoded_text[31:32] ',' --> ','",
110
+ "replace text[42:43] --> decoded_text[42:43] ',' --> ','",
111
+ "replace text[46:47] --> decoded_text[46:47] ',' --> ','",
112
+ "replace text[63:64] --> decoded_text[63:64] ',' --> ','",
113
+ "replace text[69:70] --> decoded_text[69:70] ':' --> ':'",
114
+ "replace text[73:74] --> decoded_text[73:74] ',' --> ','",
115
+ "replace text[84:85] --> decoded_text[84:85] ',' --> ','",
116
+ "replace text[91:92] --> decoded_text[91:92] ',' --> ','",
117
+ "replace text[99:100] --> decoded_text[99:100] ',' --> ','",
118
+ "replace text[110:111] --> decoded_text[110:111] '?' --> '?'",
119
+ "replace text[127:128] --> decoded_text[127:128] ',' --> ','"
120
+ ],
121
+ "n_oov_chars": 12,
122
+ "oov_ratio": 0.08759124087591241,
123
+ "oov_charset": "[\",\", \":\", \"?\"]"
124
+ },
125
+ {
126
+ "text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
127
+ "decoded_text": "招财带什么佛牌不过挣得多,娜姐也花得多。有媒体报道,教练卡洛斯的年薪高达360万元人民币,李娜每年的花费是600多万元。用一个形象的比喻,娜姐每天一睁眼,将近2万元就出去了。",
128
+ "diff": [
129
+ "replace text[12:13] --> decoded_text[12:13] ',' --> ','",
130
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
131
+ "replace text[44:45] --> decoded_text[44:45] ',' --> ','",
132
+ "replace text[68:69] --> decoded_text[68:69] ',' --> ','",
133
+ "replace text[76:77] --> decoded_text[76:77] ',' --> ','"
134
+ ],
135
+ "n_oov_chars": 5,
136
+ "oov_ratio": 0.05747126436781609,
137
+ "oov_charset": "[\",\"]"
138
+ },
139
+ {
140
+ "text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
141
+ "decoded_text": "“金庸的小说《连城诀》里有一个反派人物‘血刀老祖’,一般的坏人做坏事都是心虚的,但是这个人物却做得心安理得,理直气壮,我遇到的这个的哥就是这样。”王先生向记者描述经过时第一句话便这样说。原来,昨日王先生在搭出租车时,遇到的的哥不仅“拾金而昧”,还“昧”得理直气壮。",
142
+ "diff": [
143
+ "replace text[25:26] --> decoded_text[25:26] ',' --> ','",
144
+ "replace text[39:40] --> decoded_text[39:40] ',' --> ','",
145
+ "replace text[53:54] --> decoded_text[53:54] ',' --> ','",
146
+ "replace text[58:59] --> decoded_text[58:59] ',' --> ','",
147
+ "replace text[95:96] --> decoded_text[95:96] ',' --> ','",
148
+ "replace text[107:108] --> decoded_text[107:108] ',' --> ','",
149
+ "replace text[121:122] --> decoded_text[121:122] ',' --> ','"
150
+ ],
151
+ "n_oov_chars": 7,
152
+ "oov_ratio": 0.05303030303030303,
153
+ "oov_charset": "[\",\"]"
154
+ }
155
+ ]
stats/compression_rate/EleutherAI.gpt-neox-20b @ cc100.ar.diff.json ADDED
@@ -0,0 +1,104 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة .. ( 1)",
4
+ "decoded_text": "- اللواء / علي محمد الكحلاني - نصيحة صادقة.. ( 1)",
5
+ "diff": [
6
+ "delete text[42:43] --> decoded_text[42:42] ' ' --> ''"
7
+ ],
8
+ "n_oov_chars": 0,
9
+ "oov_ratio": 0.0,
10
+ "oov_charset": "[]"
11
+ },
12
+ {
13
+ "text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
14
+ "decoded_text": "أنا لا اعتقد أن عاقلاً من بناء هذا البلد يقبل أو يستسيغ ما يجري فيه.. أن يتحول اليمن- وهو بلد ولاَّد بالخير, إلى أطلال, وأن يتعرض أبناؤه الأحرار إلى قطيع من الذئاب تنهش ببعضها, بل والأشد نكاية وألماً أن يكون ذلك خدمة لأعدائه..",
15
+ "diff": [
16
+ "insert text[97:97] --> decoded_text[97:98] '' --> 'َ'",
17
+ "delete text[98:99] --> decoded_text[99:99] 'َ' --> ''"
18
+ ],
19
+ "n_oov_chars": 0,
20
+ "oov_ratio": 0.0,
21
+ "oov_charset": "[]"
22
+ },
23
+ {
24
+ "text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب , نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
25
+ "decoded_text": "الهدف من دراسة التاريخ هو لنتعرف احوال الشعوب, نتخذ عبرا ودروسا تساعدنا على بناء مستقبل لنا.",
26
+ "diff": [
27
+ "delete text[45:46] --> decoded_text[45:45] ' ' --> ''"
28
+ ],
29
+ "n_oov_chars": 0,
30
+ "oov_ratio": 0.0,
31
+ "oov_charset": "[]"
32
+ },
33
+ {
34
+ "text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات .",
35
+ "decoded_text": "الحضارة هي مجموعة من الانجازات التي حققتها الامة من خلال تاريخها في جميع المجالات.",
36
+ "diff": [
37
+ "delete text[81:82] --> decoded_text[81:81] ' ' --> ''"
38
+ ],
39
+ "n_oov_chars": 0,
40
+ "oov_ratio": 0.0,
41
+ "oov_charset": "[]"
42
+ },
43
+ {
44
+ "text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة في البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم . حاورته: أمينة جنان",
45
+ "decoded_text": "يعود الكاتب محمد الشريف زرقين صاحب كتاب \" ربيب الدولة، الخوف من المجهول \" مرة أخرى لقضية الأطفال مجهولي الهوية في كتاب جديد اختار هذه المرة أن يعالج فيه وضعيتهم من الجانب القانوني و الديني، بهدف حث علماء الدين و المشرعين القانونيين لإعادة النظر في فتاويهم و القوانين المجحفة التي تتحكم في مصائر هذه الفئة الضعيفة في المجتمع ، كما اخبرنا في هذا الحوار الخاص ، مصرحا انه لو كان الخيار بيده لاختار البقاء مع أمه البيولوجية التي اضطرت للتخلي عنه عند ولادته. الكتاب الذي عرف أيضا مساهمة كل من مليكة بن عراب آتو عضوة ��ي البرلمان الأوربي ، المحامية بن براهم فطيمة و رئيس جامعة الأمير عبد القادر بقسنطينة السيد عبد الله بوخلخال في بعض أجزائه بمداخلات حول الموضوع، يطرح تساؤلات مبرهنة موجهة لكل من المشرعين و المفتيين كما قال لنا السيد زرقين مشيرا أنه يتوقع أن تحفز هذه الأخيرة على الاجتهاد لتحسين وضعية الأطفال المسعفين و ضمان حقوقهم. حاورته: أمينة جنان",
46
+ "diff": [
47
+ "delete text[825:826] --> decoded_text[825:825] ' ' --> ''"
48
+ ],
49
+ "n_oov_chars": 0,
50
+ "oov_ratio": 0.0,
51
+ "oov_charset": "[]"
52
+ },
53
+ {
54
+ "text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة . رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود .",
55
+ "decoded_text": "\"مولودين باسم مجهول \" يطرح الكثير من التساؤلات الشجاعة التي تعيد النظر بعمق في هذه الفتاوي ، داعيا علماء الدين للاجتهاد حسب متطلبات عصر ال \"آ دي ان \" و أنا مستعد للجلوس على طاولة واحدة معهم لإجراء مناضرة أقدم فيها أدلة من القرآن لإبراز تناقضات فادحة و فتاويهم المغرضة التي تهدد مصائر الملايين من الأطفال في العالم ، فليس من حق المفتى أن يحرف آية أو حديث أو يتلاعب بتفسيرها لتتحول إلى قوانين مجحفة في حقهم لدرجة أن الطفل يشعر انه ما كان يجب أن يولد و أن يأتي لهذه الحياة. رغم أن الرسول عليه الصلاة و السلام يقول في أحد أحاديثه الصحيحة أن الله يرسل في اليوم الأربعين من تكون الجنين في بطن أمه ملكا ينفخ فيه الروح ، و هذا دليل على أن الحياة بإرادة من الله لجميع الناس أيا كانوا ، فبأي حق يتعدى البشر على حق غيرهم في الوجود.",
56
+ "diff": [
57
+ "delete text[469:470] --> decoded_text[469:469] ' ' --> ''",
58
+ "delete text[720:721] --> decoded_text[719:719] ' ' --> ''"
59
+ ],
60
+ "n_oov_chars": 0,
61
+ "oov_ratio": 0.0,
62
+ "oov_charset": "[]"
63
+ },
64
+ {
65
+ "text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة .",
66
+ "decoded_text": "يجب أن تتحرك الأمة الإسلامية في هذا السياق لأن المجتمع الذي لا يأخذ أطفاله المحرومين من يدهم ليعبر بهم بر الأمان لا يستحق العيش و ليست له أية كرامة.",
67
+ "diff": [
68
+ "delete text[147:148] --> decoded_text[147:147] ' ' --> ''"
69
+ ],
70
+ "n_oov_chars": 0,
71
+ "oov_ratio": 0.0,
72
+ "oov_charset": "[]"
73
+ },
74
+ {
75
+ "text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي. ...",
76
+ "decoded_text": "يستضيف راشد الفوزان في حلقة هذا الأسبوع من برنامج \"بموضوعية\" الرئيس التنفيذي للمجموعة السعودية للورق، حسان مريزن عسيري، للحديث عن نشأة المجموعة والمجالات التي تغطيها في السوق السعودي....",
77
+ "diff": [
78
+ "delete text[183:184] --> decoded_text[183:183] ' ' --> ''"
79
+ ],
80
+ "n_oov_chars": 0,
81
+ "oov_ratio": 0.0,
82
+ "oov_charset": "[]"
83
+ },
84
+ {
85
+ "text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً ...",
86
+ "decoded_text": "يلتقي راشد الفوزان في برنامجه \"بموضوعية\" برئيس مجلس إدارة مجموعة \"القريان\" التجارية، محمد بن قريان القحطاني، والذي تناول عدة موضوعات أهمها أن المجموعة تهتم بعمليات إعادة تدوير المعادن خاصة الحديد والنحاس، وأن نشاط مجموعة \"القريان\" بدأ منذ 25 عاماً في السوق السعودي، واستعرض أيضاً...",
87
+ "diff": [
88
+ "delete text[279:280] --> decoded_text[279:279] ' ' --> ''"
89
+ ],
90
+ "n_oov_chars": 0,
91
+ "oov_ratio": 0.0,
92
+ "oov_charset": "[]"
93
+ },
94
+ {
95
+ "text": "بمشاركة باحثين ومختصين , وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
96
+ "decoded_text": "بمشاركة باحثين ومختصين, وتضمنت الدورة محاضرات علمية وعملية في قاعة قيادة شرطة البصرة",
97
+ "diff": [
98
+ "delete text[22:23] --> decoded_text[22:22] ' ' --> ''"
99
+ ],
100
+ "n_oov_chars": 0,
101
+ "oov_ratio": 0.0,
102
+ "oov_charset": "[]"
103
+ }
104
+ ]