erythropygia
/

gpt2-turkish-base

Text Generation

Inference Endpoints

text-generation-inference

Model card Files Files and versions Community

erythropygia commited on Apr 3

Commit

69bcbf3

•

1 Parent(s): 7440193

Update README.md

Files changed (1) hide show

README.md +60 -1

README.md CHANGED Viewed

@@ -5,4 +5,63 @@ tags:
 - '#Turkish '
 - '#turkish'
 - '#gpt2'
----

 - '#Turkish '
 - '#turkish'
 - '#gpt2'
+# Model Card for Model ID
+gpt2 fine-tuned with Turkish corpus data.
+### Training Data
+- Dataset size: ~2 million
+## Using model
+```Python
+from tokenizers import (decoders, models, normalizers, pre_tokenizers, processors, trainers, Tokenizer)
+from transformers import GPT2Tokenizer, GPT2TokenizerFast, GPT2Model, GPT2LMHeadModel
+from transformers import TextDataset, DataCollatorForLanguageModeling, Trainer, TrainingArguments
+import torch
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+print(device)
+def generate_output(text):
+    # Input text for completion
+    input_text = text
+    # Tokenize the input text
+    input_ids = tokenizer.encode(input_text, return_tensors="pt").to(device)
+    # Generate text completions with specified parameters
+    output_text = model.generate(input_ids,
+                                 no_repeat_ngram_size = 3,
+                                 max_length=50,
+                                 repetition_penalty=1.1,
+                                 top_k=100,
+                                 top_p=0.7,
+                                 temperature = 0.8,
+                                 do_sample=True,
+                                 num_return_sequences=1)[0]
+    # Decode the generated token IDs to text
+    completed_text = tokenizer.decode(output_text, skip_special_tokens=False)
+    #print("Input Text:", input_text)
+    return completed_text
+print(generate_output("Adım Mehmet."))
+```
+#### Training Hyperparameters
+- **Epochs:** 5
+- **LearningRate:**:4e-5
+#### Training Results
+ **training_loss:** 4.06675440790132