GuiSales404 commited on
Commit
3840d20
1 Parent(s): e0c9b2f

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +119 -0
README.md ADDED
@@ -0,0 +1,119 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: pt
3
+ license: mit
4
+ tags:
5
+ - question-answering
6
+ - bert
7
+ - bert-base
8
+ - pytorch
9
+ datasets:
10
+ - brWaC
11
+ - squad
12
+ - squad_v1_pt
13
+ metrics:
14
+ - squad
15
+ widget:
16
+ - text: "Quando começou a pandemia de Covid-19 no mundo?"
17
+ context: "A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano."
18
+ - text: "Onde foi descoberta a Covid-19?"
19
+ context: "A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano."
20
+ ---
21
+
22
+ # Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1
23
+
24
+ ## Introduction
25
+
26
+ The model was trained on the dataset SQUAD v1.1 in portuguese from the [Deep Learning Brasil group](http://www.deeplearningbrasil.com.br/) on Google Colab.
27
+
28
+ The language model used is the [BERTimbau Base](https://huggingface.co/neuralmind/bert-base-portuguese-cased) (aka "bert-base-portuguese-cased") from [Neuralmind.ai](https://neuralmind.ai/): BERTimbau Base is a pretrained BERT model for Brazilian Portuguese that achieves state-of-the-art performances on three downstream NLP tasks: Named Entity Recognition, Sentence Textual Similarity and Recognizing Textual Entailment. It is available in two sizes: Base and Large.
29
+
30
+ ## Informations on the method used
31
+
32
+ All the informations are in the blog post : [NLP | Modelo de Question Answering em qualquer idioma baseado no BERT base (estudo de caso em português)](https://medium.com/@pierre_guillou/nlp-modelo-de-question-answering-em-qualquer-idioma-baseado-no-bert-base-estudo-de-caso-em-12093d385e78)
33
+
34
+ ## Notebooks in Google Colab & GitHub
35
+
36
+ - Google Colab: [colab_question_answering_BERT_base_cased_squad_v11_pt.ipynb](https://drive.google.com/file/d/1YkfxAjNkPzOr6hsHc7t7LTv3HYgUCWlX/view?usp=share_link)
37
+ - GitHub: [colab_question_answering_BERT_base_cased_squad_v11_pt.ipynb](https://github.com/GuiSales404/QA_system_pt-br)
38
+
39
+ ## Performance
40
+
41
+ The results obtained are the following:
42
+
43
+ ```
44
+ f1 = 79.38
45
+ exact match = 67.51
46
+ ```
47
+
48
+ ## How to use the model... with Pipeline
49
+
50
+ ```python
51
+ import transformers
52
+ from transformers import pipeline
53
+
54
+ # source: https://pt.wikipedia.org/wiki/Pandemia_de_COVID-19
55
+ context = r"""
56
+ A pandemia de COVID-19, também conhecida como pandemia de coronavírus, é uma pandemia em curso de COVID-19,
57
+ uma doença respiratória aguda causada pelo coronavírus da síndrome respiratória aguda grave 2 (SARS-CoV-2).
58
+ A doença foi identificada pela primeira vez em Wuhan, na província de Hubei, República Popular da China,
59
+ em 1 de dezembro de 2019, mas o primeiro caso foi reportado em 31 de dezembro do mesmo ano.
60
+ Acredita-se que o vírus tenha uma origem zoonótica, porque os primeiros casos confirmados
61
+ tinham principalmente ligações ao Mercado Atacadista de Frutos do Mar de Huanan, que também vendia animais vivos.
62
+ Em 11 de março de 2020, a Organização Mundial da Saúde declarou o surto uma pandemia. Até 8 de fevereiro de 2021,
63
+ pelo menos 105 743 102 casos da doença foram confirmados em pelo menos 191 países e territórios,
64
+ com cerca de 2 308 943 mortes e 58 851 440 pessoas curadas.
65
+ """
66
+
67
+ model_name = 'pierreguillou/bert-base-cased-squad-v1.1-portuguese'
68
+ nlp = pipeline("question-answering", model=model_name)
69
+
70
+ question = "Quando começou a pandemia de Covid-19 no mundo?"
71
+
72
+ result = nlp(question=question, context=context)
73
+
74
+ print(f"Answer: '{result['answer']}', score: {round(result['score'], 4)}, start: {result['start']}, end: {result['end']}")
75
+
76
+ # Answer: '1 de dezembro de 2019', score: 0.713, start: 328, end: 349
77
+ ```
78
+
79
+ ## How to use the model... with the Auto classes
80
+
81
+ ```python
82
+ from transformers import AutoTokenizer, AutoModelForQuestionAnswering
83
+
84
+ tokenizer = AutoTokenizer.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
85
+ model = AutoModelForQuestionAnswering.from_pretrained("pierreguillou/bert-base-cased-squad-v1.1-portuguese")
86
+ ```
87
+
88
+ Or just clone the model repo:
89
+
90
+ ```python
91
+ git lfs install
92
+ git clone https://huggingface.co/pierreguillou/bert-base-cased-squad-v1.1-portuguese
93
+
94
+ # if you want to clone without large files – just their pointers
95
+ # prepend your git clone with the following env var:
96
+
97
+ GIT_LFS_SKIP_SMUDGE=1
98
+ ```
99
+
100
+ ## Limitations and bias
101
+
102
+ The training data used for this model come from Portuguese SQUAD. It could contain a lot of unfiltered content, which is far from neutral, and biases. We're working on ways to improve this by using computational grammars for text data augmentation.
103
+
104
+ ## Author
105
+
106
+ Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1 was trained and evaluated by [Pierre GUILLOU](https://www.linkedin.com/in/pierreguillou/) thanks to the Open Source code, platforms and advices of many organizations ([link to the list](https://medium.com/@pierre_guillou/nlp-modelo-de-question-answering-em-qualquer-idioma-baseado-no-bert-base-estudo-de-caso-em-12093d385e78#c572)). In particular: [Hugging Face](https://huggingface.co/), [Neuralmind.ai](https://neuralmind.ai/), [Deep Learning Brasil group](http://www.deeplearningbrasil.com.br/), [Google Colab](https://colab.research.google.com/) and [AI Lab](https://ailab.unb.br/).
107
+
108
+ ## Citation
109
+ This research is running using Pierre Guillou notebooks, all this job is available in [this](https://medium.com/@pierre_guillou/nlp-nas-empresas-como-eu-treinei-um-modelo-t5-em-portugu%C3%AAs-na-tarefa-qa-no-google-colab-e8eb0dc38894) medium article. Thank you !
110
+
111
+ If you use our work, please cite:
112
+
113
+ ```bibtex
114
+ @inproceedings{pierreguillou2021bertbasecasedsquadv11portuguese,
115
+ title={Portuguese BERT base cased QA (Question Answering), finetuned on SQUAD v1.1},
116
+ author={Pierre Guillou},
117
+ year={2021}
118
+ }
119
+ ```