koziev ilya commited on
Commit
0f0a555
1 Parent(s): 8bb1806

adding evaluation metrics for arithmetic test samples

Browse files
Files changed (1) hide show
  1. README.md +24 -6
README.md CHANGED
@@ -14,11 +14,11 @@ widget:
14
  - text: "- Аристотель был греческим ученым. Все греческие ученые были черноволосыми. Какой вывод можно сделать про внешность Аристотеля? -"
15
  ---
16
 
17
- ## Russian Chit-chat with common sence reasoning
18
 
19
  Модель является ядром прототипа [диалоговой системы](https://github.com/Koziev/chatbot) с двумя основными функциями.
20
 
21
- Первая функция - генерация реплик чит-чата. В качестве затравки подается история диалога (предшествующие несколько реплик, до 10).
22
 
23
  ```
24
  - Привет, как дела?
@@ -26,9 +26,9 @@ widget:
26
  - <<< эту реплику ожидаем от модели >>>
27
  ```
28
 
29
- Вторая функция модели - вывод ответа на заданный вопрос, опираясь на дополнительные факты. Предполагается, что релевантные факты извлекаются
30
- из стороннего хранилища (базы знаний) с помощью другой модели, которую мы здесь пока не рассматриваем. Используя указанный
31
- факт и текст вопроса, модель построит грамматичный и максимально краткий ответ, как это сделал бы человек в подобной коммуникативной ситуации. Релевантные факты
32
  следует указывать перед текстом заданного вопроса так, будто сам собеседник сказал их:
33
 
34
 
@@ -47,7 +47,7 @@ widget:
47
  - в Подольске
48
  ```
49
 
50
- В некоторых случаях модель может выполнять силлогический вывод ответа, опираясь на 2 предпосылки, связанные друг с другом:
51
 
52
  ```
53
  - Смертен ли Аристофан, если он был греческим философом, а все философы смертны?
@@ -64,6 +64,24 @@ widget:
64
  ```
65
 
66
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
67
  ### Пример использования
68
 
69
  ```
 
14
  - text: "- Аристотель был греческим ученым. Все греческие ученые были черноволосыми. Какой вывод можно сделать про внешность Аристотеля? -"
15
  ---
16
 
17
+ ## Russian Chit-chat, Deductive and Common Sense reasoning model
18
 
19
  Модель является ядром прототипа [диалоговой системы](https://github.com/Koziev/chatbot) с двумя основными функциями.
20
 
21
+ Первая функция - **генерация реплик чит-чата**. В качестве затравки подается история диалога (предшествующие несколько реплик, до 10).
22
 
23
  ```
24
  - Привет, как дела?
 
26
  - <<< эту реплику ожидаем от модели >>>
27
  ```
28
 
29
+ Вторая функция модели - вывод ответа на заданный вопрос, опираясь на дополнительные факты или на "здравый смысл". Предполагается, что релевантные факты извлекаются
30
+ из стороннего хранилища (базы знаний) с помощью другой модели, которую мы здесь не рассматриваем. Используя указанный
31
+ факт(ы) и текст вопроса, модель построит грамматичный и максимально краткий ответ, как это сделал бы человек в подобной коммуникативной ситуации. Релевантные факты
32
  следует указывать перед текстом заданного вопроса так, будто сам собеседник сказал их:
33
 
34
 
 
47
  - в Подольске
48
  ```
49
 
50
+ В некоторых случаях модель может выполнять **силлогический вывод** ответа, опираясь на 2 предпосылки, связанные друг с другом. Выводимое из двух предпосылок следствие не фигурирует явно, а *как бы* используется для вывода ответа:
51
 
52
  ```
53
  - Смертен ли Аристофан, если он был греческим философом, а все философы смертны?
 
64
  ```
65
 
66
 
67
+ ### Варианты модели и метрики
68
+
69
+ Выложенная на данный момент модель имеет 760 млн. параметров, т.е. sberbank-ai/rugpt3large_based_on_gpt2. Далее приводится
70
+ результат замера точности решения арифметических задач на отложенном тестовом наборе сэмплов:
71
+
72
+ | base model | arith. accuracy |
73
+ | --------------------------------------- | --------------- |
74
+ | sberbank-ai/rugpt3large_based_on_gpt2 | 0.91 |
75
+ | sberbank-ai/rugpt3medium_based_on_gpt2 | 0.70 |
76
+ | sberbank-ai/rugpt3small_based_on_gpt2 | 0.58 |
77
+ | tinkoff-ai/ruDialoGPT-small | 0.44 |
78
+
79
+
80
+ Цифра 0.91 в столбце "arith. accuracy" означает, что 91% тестовых задач решено полностью верно.
81
+ Любое отклонение сгенерированного ответа от эталонного рассматривается
82
+ как ошибка. Например, выдача ответа "120" вместо "119" тоже фиксируется как ошибка.
83
+
84
+
85
  ### Пример использования
86
 
87
  ```