--- language: - de datasets: - unicamp-dl/mmarco - deepset/germanquad widget: - text: "Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert." --- # svalabs/mt5-large-german-query-gen-v1 This is a german [doc2query](https://arxiv.org/abs/1904.08375) model usable for document expansion to further boost search results by generating queries. ## Usage (code from doc2query/msmarco-14langs-mt5-base-v1) ```python from transformers import AutoTokenizer, AutoModelForSeq2SeqLM import torch model_name = 'svalabs/mt5-large-german-query-gen-v1' tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSeq2SeqLM.from_pretrained(model_name).to('cuda:0') text = "qgen: Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert." def create_queries(para): input_ids = tokenizer.encode(para, return_tensors='pt').to('cuda:0') with torch.no_grad(): # Here we use top_k / top_k random sampling. It generates more diverse queries, but of lower quality sampling_outputs = model.generate( input_ids=input_ids, max_length=64, do_sample=True, top_p=0.95, top_k=20, num_return_sequences=10 ) # Here we use Beam-search. It generates better quality queries, but with less diversity beam_outputs = model.generate( input_ids=input_ids, max_length=64, num_beams=10, no_repeat_ngram_size=2, num_return_sequences=10, early_stopping=False ) print("Paragraph:") print(para) print("\nBeam Outputs:") for i in range(len(beam_outputs)): query = tokenizer.decode(beam_outputs[i], skip_special_tokens=True) print(f'{i + 1}: {query}') print("\nSampling Outputs:") for i in range(len(sampling_outputs)): query = tokenizer.decode(sampling_outputs[i], skip_special_tokens=True) print(f'{i + 1}: {query}') create_queries(text) ``` **Console Output**: ``` Paragraph: qgen: Python ist eine universelle, üblicherweise interpretierte, höhere Programmiersprache. Sie hat den Anspruch, einen gut lesbaren, knappen Programmierstil zu fördern. So werden beispielsweise Blöcke nicht durch geschweifte Klammern, sondern durch Einrückungen strukturiert. Beam Outputs: 1: ist Python eine universelle Programmiersprache 2: Welche Art von Programmiersprache ist Python? 3: Welche Programmiersprache ist Python? 4: Was ist Python-Programmierung? 5: welche sprache ist python 6: Was ist der Unterschied zwischen Python und Perl? 7: Was ist der Unterschied zwischen Python und Ruby? 8: Was ist der Unterschied zwischen Python und Java? 9: was ist python 10: was ist der unterschied zwischen c++ und python? Sampling Outputs: 1: ist Python eine universelle Programmiersprache 2: Was ist der Zweck der Python-Sprache? 3: Was ist der Unterschied zwischen Python und Java? 4: welche sprache ist python 5: Was ist Python-Programmierung? 6: welcher teil der sprache ist python 7: Welche Art von Programmiersprache ist Python? 8: ist Python eine universelle Programmiersprache 9: warum Python eine universelle Programmiersprache ist 10: ist Python-Programmierung universell ``` ### References ['Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks'](https://arxiv.org/abs/1908.10084). ['MS MARCO: A Human Generated MAchine Reading COmprehension Dataset'](https://arxiv.org/abs/1611.09268). ['GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval'](https://arxiv.org/abs/2104.12741). [google/mt5-large](https://huggingface.co/google/mt5-large) [mMARCO dataset](https://github.com/unicamp-dl/mMARCO) [doc2query](https://arxiv.org/abs/1904.08375)