nlp-mt5-base-drcd / README.md
Liuchien's picture
Update README.md
cfa64e9 verified
|
raw
history blame
No virus
1.69 kB
metadata
license: mit
language:
  - zh
metrics:
  - accuracy
  - f1
  - EM

DRCD dataset

台達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD) 屬於通用領域繁體中文機器閱讀理解資料集。 DRCD資料集從2,108篇維基條目中整理出10,014篇段落,並從段落中標註出30,000多個問題。

Available models

Abstract

我們提出了Abstracting from Confusion(AFC),並利用DRCD資料集進行微調,微調10個Epoch。

在此實驗設計中,DRCD基準資料集中的每個問題,會搭配10個和問題最相近的段落,額外還有1個保證包含正確答案的最佳段落(The Best Passage),在BERT閱讀器測試方面,每次進行閱讀理解測試時,是輸入問題和最佳段落,並對比閱讀器預測結果和標準答案之間的差異,計算出F1分數和EM分數。 對比閱讀器預測結果和標準答案之間的差異,計算出F1分數和EM分數,分別測試兩個閱讀器,我們可以發現AFC閱讀器的表現並不遜色於BERT閱讀器,甚至在分數表現上更好。

在我們的情境中,基於Text-to-Text Generation概念實作出來的Extractor,在混雜資料上的表現,更優於Bert,詳細參考基於 Fusion-in-Decoder 之中文開放領域問答研究

Method

將問題(Question)和10句各自獨立的句子(Sentences)組合成輸入,模型可以推理出這10個句子中和問題最相符的答案。

Input=question:balabal context:senten1[SEP]senten2[SEP]senten3.... Output=abstract result