IlyaGusev commited on
Commit
46eeb0e
1 Parent(s): 5b706c9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -7
README.md CHANGED
@@ -17,8 +17,6 @@ widget:
17
  example_title: "Википедия"
18
  - text: "С 1 сентября в России вступают в силу поправки в закон «О банкротстве» — теперь должники смогут освобождаться от непосильных обязательств во внесудебном порядке, если сумма задолженности составляет не менее 50 тыс. рублей и не превышает 500 тыс. рублей без учета штрафов, пени, процентов за просрочку платежа и прочих имущественных или финансовых санкций. У физлиц и индивидуальных предпринимателей появилась возможность пройти процедуру банкротства без участия суда и финансового управляющего — достаточно подать соответствующее заявление через МФЦ. Сумму задолженности и список всех известных заявителю кредиторов нужно предоставить самостоятельно. Если все условия соблюдены, сведения внесут в Единый федеральный реестр в течение трех рабочих дней. При этом на момент подачи заявления в отношении заявителя должно быть окончено исполнительное производство с возвращением исполнительного документа взыскателю. Это значит, что у потенциального банкрота не должно быть имущества, которое можно взыскать. Кроме того, в отношении гражданина не должно быть возбуждено другое исполнительное производство. В период всей процедуры заявитель не сможет брать займы, кредиты, выдавать поручительства, совершать иные обеспечительные сделки. Внесудебное банкротство будет длиться шесть месяцев, в течение которых также будет действовать мораторий на удовлетворение требований кредиторов, отмеченных в заявлении должника, и мораторий об уплате обязательных платежей. Кроме того, прекращается начисление неустоек и иных финансовых санкций; имущественные взыскания (кроме алиментов) также будут приостановлены. По завершению процедуры заявителя освободят от дальнейшего выполнения требований кредиторов, указанных в заявлении о признании его банкротом, а эта задолженность признается безнадежной. В прошлом месяце стало известно, что за первое полугодие 2020 года российские суды признали банкротами 42,7 тыс. граждан (в том числе индивидуальных предпринимателей) — по данным единого реестра «Федресурс», это на 47,2% больше показателя аналогичного периода 2019 года. Рост числа обанкротившихся граждан во втором квартале по сравнению с первым замедлился — такая динамика обусловлена тем, что в период ограничений с 19 марта по 11 мая суды редко рассматривали банкротные дела компаний и меньше, чем обычно, в отношении граждан, объяснял руководитель проекта «Федресурс» Алексей Юхнин. Он прогнозирует, что во втором полугодии мы увидим рост показателя, когда суды рассмотрят все дела, что не смогли ранее в режиме ограничений. По его данным, уже в июне число личных банкротств выросло до 11,5 тыс., что в два раза превышает показатель аналогичного периода 2019 года."
19
  example_title: "Новости"
20
- - text: "Реферирование (или аннотирование, или суммаризация) — процесс получения краткой версии документа, которая раскрывала бы его суть. Вы наверняка сталкивались с аннотациями книг, газетных и новостных статей, составленными людьми. Автоматическое же реферирование происходит с помощью компьютерной программы. Автоматическим реферированием инженеры занимаются с 50-х. Одна из первых работ на эту тему — статья Ханса Петера Луна 1958 года. Задача мультидокументного реферирования тоже достаточно стара. Её популяризировали ещё в начале нулевых годов серией конференций DUC (Document Understanding Conference). Её основное отличие от обычного реферирования — на вход алгоритму подают не один, а несколько документов. В Яндекс.Новостях мы реферируем сюжет, то есть коллекцию документов об одном и том же событии. На выходе хотим получить краткую выжимку самых важных подробностей из этих документов. Важно, что Новости не пишут собственные тексты, даже автоматически: у нас нет своей редакции, все материалы, которые мы используем, получаем от изданий-партнёров. То есть в готовую выжимку обязательно должны попасть текстовые фрагменты из документов на входе. Это отметает все абстрагирующие методы, которые могут писать новые тексты, в том числе и YaLM. Выжимки бывают разных форматов: они могут отличаться размером и числом фрагментов. После экспериментов мы остановились на 4 предложениях. Выжимки большего размера, как и фрагменты больше предложения, пользователи воспринимают тяжело."
21
- example_title: "Хабр"
22
  - text: "Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность к��торых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы."
23
  example_title: "Научная статья"
24
  ---
@@ -55,7 +53,7 @@ input_ids = tokenizer(
55
 
56
  output_ids = model.generate(
57
  input_ids=input_ids,
58
- repetition_penalty=2.0
59
  )[0]
60
 
61
  summary = tokenizer.decode(output_ids, skip_special_tokens=True)
@@ -77,15 +75,16 @@ Gazeta v1 train -> Gazeta v1 test
77
 
78
  | Model | R-1-f | R-2-f | R-L-f | chrF | METEOR | BLEU |
79
  |:--------------------------|:------|:------|:------|:-------|:-------|:-----|
80
- | mbart_ru_sum_gazeta | 32.1 | 14.3 | **27.9** | **39.7** | **25.7** | **12.4** |
81
- | rut5_base_sum_gazeta | **32.3** | **14.5** | 27.9 | 39.6 | 25.1 | 11.5 |
82
 
83
  Gazeta v1 train -> Gazeta v2 test
84
 
85
  | Model | R-1-f | R-2-f | R-L-f | chrF | METEOR | BLEU |
86
  |:--------------------------|:------|:------|:------|:-------|:-------|:-----|
87
- | mbart_ru_sum_gazeta | **28.8** | **11.1** | **24.5** | **37.4** | **22.7** | **9.5** |
88
- | rut5_base_sum_gazeta | 28.5 | 11.0 | 24.2 | 36.8 | 21.2 | 8.6 |
 
89
 
90
  Predicting all summaries:
91
  ```python
17
  example_title: "Википедия"
18
  - text: "С 1 сентября в России вступают в силу поправки в закон «О банкротстве» — теперь должники смогут освобождаться от непосильных обязательств во внесудебном порядке, если сумма задолженности составляет не менее 50 тыс. рублей и не превышает 500 тыс. рублей без учета штрафов, пени, процентов за просрочку платежа и прочих имущественных или финансовых санкций. У физлиц и индивидуальных предпринимателей появилась возможность пройти процедуру банкротства без участия суда и финансового управляющего — достаточно подать соответствующее заявление через МФЦ. Сумму задолженности и список всех известных заявителю кредиторов нужно предоставить самостоятельно. Если все условия соблюдены, сведения внесут в Единый федеральный реестр в течение трех рабочих дней. При этом на момент подачи заявления в отношении заявителя должно быть окончено исполнительное производство с возвращением исполнительного документа взыскателю. Это значит, что у потенциального банкрота не должно быть имущества, которое можно взыскать. Кроме того, в отношении гражданина не должно быть возбуждено другое исполнительное производство. В период всей процедуры заявитель не сможет брать займы, кредиты, выдавать поручительства, совершать иные обеспечительные сделки. Внесудебное банкротство будет длиться шесть месяцев, в течение которых также будет действовать мораторий на удовлетворение требований кредиторов, отмеченных в заявлении должника, и мораторий об уплате обязательных платежей. Кроме того, прекращается начисление неустоек и иных финансовых санкций; имущественные взыскания (кроме алиментов) также будут приостановлены. По завершению процедуры заявителя освободят от дальнейшего выполнения требований кредиторов, указанных в заявлении о признании его банкротом, а эта задолженность признается безнадежной. В прошлом месяце стало известно, что за первое полугодие 2020 года российские суды признали банкротами 42,7 тыс. граждан (в том числе индивидуальных предпринимателей) — по данным единого реестра «Федресурс», это на 47,2% больше показателя аналогичного периода 2019 года. Рост числа обанкротившихся граждан во втором квартале по сравнению с первым замедлился — такая динамика обусловлена тем, что в период ограничений с 19 марта по 11 мая суды редко рассматривали банкротные дела компаний и меньше, чем обычно, в отношении граждан, объяснял руководитель проекта «Федресурс» Алексей Юхнин. Он прогнозирует, что во втором полугодии мы увидим рост показателя, когда суды рассмотрят все дела, что не смогли ранее в режиме ограничений. По его данным, уже в июне число личных банкротств выросло до 11,5 тыс., что в два раза превышает показатель аналогичного периода 2019 года."
19
  example_title: "Новости"
 
 
20
  - text: "Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность к��торых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы."
21
  example_title: "Научная статья"
22
  ---
53
 
54
  output_ids = model.generate(
55
  input_ids=input_ids,
56
+ repetition_penalty=3.0
57
  )[0]
58
 
59
  summary = tokenizer.decode(output_ids, skip_special_tokens=True)
75
 
76
  | Model | R-1-f | R-2-f | R-L-f | chrF | METEOR | BLEU |
77
  |:--------------------------|:------|:------|:------|:-------|:-------|:-----|
78
+ | [mbart_ru_sum_gazeta](https://huggingface.co/IlyaGusev/mbart_ru_sum_gazeta) | 32.1 | 14.3 | **27.9** | **39.7** | **25.7** | **12.4** |
79
+ | [rut5_base_sum_gazeta](https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta) | **32.3** | **14.5** | 27.9 | 39.6 | 25.1 | 11.5 |
80
 
81
  Gazeta v1 train -> Gazeta v2 test
82
 
83
  | Model | R-1-f | R-2-f | R-L-f | chrF | METEOR | BLEU |
84
  |:--------------------------|:------|:------|:------|:-------|:-------|:-----|
85
+ | [mbart_ru_sum_gazeta](https://huggingface.co/IlyaGusev/mbart_ru_sum_gazeta) | **28.8** | **11.1** | **24.5** | **37.4** | **22.7** | **9.5** |
86
+ | [rut5_base_sum_gazeta](https://huggingface.co/IlyaGusev/rut5_base_sum_gazeta) | 28.5 | 11.0 | 24.2 | 36.8 | 21.2 | 8.6 |
87
+
88
 
89
  Predicting all summaries:
90
  ```python