logo-qna-model / README.md

Update README.md

a5d7011 over 1 year ago

No virus

4.82 kB

	---
	language: tr
	---
	# Turkish Question Answering Model : Question Answering

	Inspired by savasy/bert-base-turkish-squad,
	* Inspired model: https://huggingface.co/savasy/bert-base-turkish-squad
	* BERT-base: https://huggingface.co/dbmdz/bert-base-turkish-uncased
	* Dataset: Private QnA Chatbot Database

	# Training Code
	```
	model_args = QuestionAnsweringArgs()
	model_args.train_batch_size = 16
	model_args.evaluate_during_training = True
	model_args.n_best_size=3
	model_args.num_train_epochs=5

	train_args = {
	"reprocess_input_data": True,
	"overwrite_output_dir": True,
	"use_cached_eval_features": True,
	"output_dir": f"outputs/bert",
	"best_model_dir": f"outputs/bert/best_model1",
	"evaluate_during_training": True,
	"max_seq_length": 128,
	"num_train_epochs": 10,
	"evaluate_during_training_steps": 1000,
	"wandb_project": "Question Answer Application",
	"wandb_kwargs": {"name": "dbmdz/bert-base-turkish-uncased\"},
	"save_model_every_epoch": False,
	"save_eval_checkpoints": False,
	"n_best_size":3,
	# "use_early_stopping": True,
	# "early_stopping_metric": "mcc",
	"n_gpu": 4,
	# "manual_seed": 4,
	"use_multiprocessing": True,
	"train_batch_size": 126,
	"eval_batch_size": 64,
	# "config": {
	# "output_hidden_states": True
	# }
	}
	model = QuestionAnsweringModel(
	"bert","dbmdz/bert-base-turkish-uncased\", args=train_args
	)

	model.train_model(train, eval_data=test)
	```
	# Dataset Sample
	```
	{
	"context": "Varlıklara ait yeniden değerleme toplamlarının özet olarak alındığı rapor seçeneğidir. Varlık Yönetimi program bölümünde Raporlar menüsü altında yer alır. Rapor yıllık olarak alınır. Toplamların alınacağı yıl, Yıl filtre satırında belirtilir. Rapor filtre seçenekleri aşağıdaki tabloda yer almaktadır.",
	"qas": [
	{
	"id": "01017",
	"is_impossible": false,
	"question": "Yeniden Değerleme Özeti ne işe yarar",
	"answers": [
	{
	"text": "Varlıklara ait yeniden değerleme toplamlarının özet olarak alındığı rapor seçeneğidir.",
	"answer_start": 0
	}
	]
	},
	{
	"id": "01018",
	"is_impossible": false,
	"question": " Yeniden Değerleme Özetine nereden ulaşırım",
	"answers": [
	{
	"text": "Varlık Yönetimi program bölümünde Raporlar menüsü altında yer alır.",
	"answer_start": 87
	}
	]
	}
	}

	```
	# Example Usage

	> Load Model
	```
	#Required Libraries
	from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline
	import torch
	#Model Path
	hface_path = "yunusemreemik/logo-qna-model"
	#For tokenize context and question
	tokenizer = AutoTokenizer.from_pretrained(hface_path)
	#For generate NN eval outputs
	model = AutoModelForQuestionAnswering.from_pretrained(hface_path)
	#For functional pipe
	nlp = pipeline("question-answering", model=model, tokenizer=tokenizer)
	```
	> Apply the model.
	> Please dont forget the delete backslashes "\" before run
	```
	e_arsiv ="e-Arşiv Tipleri, e-Arşiv fatura türünün belirlendiği alandır. İlgili cari hesap kartında \\nLogoConnect sayfasında belirlenen e-arşiv tipi alana öndeğer olarak \\naktarılır. Standart faturalar için herhangi bir seçim yapılmaz. \\nÖzel matrah uygulanan tütün, altın, gümüş, gazete, dergi, belediye \\nşehir yolcu taşımacılığı ve telefon kartı satışları için kesilen faturalar. \\nİstisna uygulanan faturalar. (İhracat teslimleri ve bu teslimlere ilişkin hizmetler, \\nmal ihracatı, hizmet ihracatı, serbest bölgelerdeki müşteriler için yapılan fason hizmetler vs..) \\nAraç Tescil Faturası, Araç tescil için kesilen faturalardır."

	answer_text = nlp(question="İlgili cari hesap kartları nerede belirlenir?", context=e_arsiv)
	print(answer_text )

	```
	```

	print(nlp(question="", context=e_arsiv))
	```
	# Evaluation
	```
	(160,
	{'global_step': [16, 32, 48, 64, 80, 96, 112, 128, 144, 160],
	'correct': [11, 15, 18, 18, 19, 16, 16, 16, 14, 14],
	'similar': [23, 26, 22, 21, 21, 24, 24, 23, 25, 25],
	'incorrect': [8, 1, 2, 3, 2, 2, 2, 3, 3, 3],
	'train_loss': [0.8277238607406616,
	0.7876648306846619,
	0.44657397270202637,
	0.32337626814842224,
	0.2009371519088745,
	0.15247923135757446,
	0.11289173364639282,
	0.06762214750051498,
	0.06813357770442963,
	0.04011240229010582],
	'eval_loss': [-9.3046875,
	-8.8984375,
	-9.1171875,
	-9.03125,
	-9.046875,
	-8.984375,
	-9.1171875,
	-9.296875,
	-9.296875,
	-9.296875]})
	```