File size: 4,183 Bytes
6b42f99 e451973 6b42f99 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 |
---
language:
- de
datasets:
- unicamp-dl/mmarco
- deepset/germanquad
widget:
- text: "Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert."
---
# svalabs/mt5-large-german-query-gen-v1
This is a german [doc2query](https://arxiv.org/abs/1904.08375) model usable for document expansion to further boost search results by generating queries.
## Usage (code from doc2query/msmarco-14langs-mt5-base-v1)
```python
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
model_name = 'svalabs/mt5-large-german-query-gen-v1'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to('cuda:0')
text = "qgen: Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert."
def create_queries(para):
input_ids = tokenizer.encode(para, return_tensors='pt').to('cuda:0')
with torch.no_grad():
# Here we use top_k / top_k random sampling. It generates more diverse queries, but of lower quality
sampling_outputs = model.generate(
input_ids=input_ids,
max_length=64,
do_sample=True,
top_p=0.95,
top_k=20,
num_return_sequences=10
)
# Here we use Beam-search. It generates better quality queries, but with less diversity
beam_outputs = model.generate(
input_ids=input_ids,
max_length=64,
num_beams=10,
no_repeat_ngram_size=2,
num_return_sequences=10,
early_stopping=False
)
print("Paragraph:")
print(para)
print("\nBeam Outputs:")
for i in range(len(beam_outputs)):
query = tokenizer.decode(beam_outputs[i], skip_special_tokens=True)
print(f'{i + 1}: {query}')
print("\nSampling Outputs:")
for i in range(len(sampling_outputs)):
query = tokenizer.decode(sampling_outputs[i], skip_special_tokens=True)
print(f'{i + 1}: {query}')
create_queries(text)
```
**Console Output**:
```
Paragraph:
qgen: Python ist eine universelle,
üblicherweise interpretierte,
höhere Programmiersprache.
Sie hat den Anspruch, einen gut lesbaren,
knappen Programmierstil zu fördern.
So werden beispielsweise Blöcke nicht durch geschweifte Klammern,
sondern durch Einrückungen strukturiert.
Beam Outputs:
1: ist Python eine universelle Programmiersprache
2: Welche Art von Programmiersprache ist Python?
3: Welche Programmiersprache ist Python?
4: Was ist Python-Programmierung?
5: welche sprache ist python
6: Was ist der Unterschied zwischen Python und Perl?
7: Was ist der Unterschied zwischen Python und Ruby?
8: Was ist der Unterschied zwischen Python und Java?
9: was ist python
10: was ist der unterschied zwischen c++ und python?
Sampling Outputs:
1: ist Python eine universelle Programmiersprache
2: Was ist der Zweck der Python-Sprache?
3: Was ist der Unterschied zwischen Python und Java?
4: welche sprache ist python
5: Was ist Python-Programmierung?
6: welcher teil der sprache ist python
7: Welche Art von Programmiersprache ist Python?
8: ist Python eine universelle Programmiersprache
9: warum Python eine universelle Programmiersprache ist
10: ist Python-Programmierung universell
```
### References
['Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks'](https://arxiv.org/abs/1908.10084).
['MS MARCO: A Human Generated MAchine Reading COmprehension Dataset'](https://arxiv.org/abs/1611.09268).
['GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval'](https://arxiv.org/abs/2104.12741).
[google/mt5-large](https://huggingface.co/google/mt5-large)
[mMARCO dataset](https://github.com/unicamp-dl/mMARCO)
[doc2query](https://arxiv.org/abs/1904.08375) |