Spaces:

Corrigan123
/

fypmc20277423

Sleeping

App Files Files Community

Corrigan123 commited on Mar 31

Commit

8250642

•

1 Parent(s): aa69d47

Upload 6 files

Browse files

Files changed (6) hide show

fypmc20277423/.gitattributes +35 -0
fypmc20277423/README.md +12 -0
fypmc20277423/app.py +52 -0
fypmc20277423/output/runs/Mar31_21-01-46_LAPTOP-23I4320M/events.out.tfevents.1711915307.LAPTOP-23I4320M.22972.0 +3 -0
fypmc20277423/requirements.txt +4 -0
fypmc20277423/training.txt +0 -0

fypmc20277423/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

fypmc20277423/README.md ADDED Viewed

	@@ -0,0 +1,12 @@

+---
+title: Fypmc20277423
+emoji: 📚
+colorFrom: indigo
+colorTo: gray
+sdk: streamlit
+sdk_version: 1.32.0
+app_file: app.py
+pinned: false
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

fypmc20277423/app.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments
+from datasets import load_dataset
+# Load the text dataset from the specified file.
+dataset = load_dataset("text", data_files="training.txt")
+# Initialize the GPT-2 tokenizer.
+tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
+# Set the tokenizer's pad token to the EOS token.
+tokenizer.pad_token = tokenizer.eos_token
+# Define a function to tokenize the dataset and prepare labels.
+def tokenize_function(examples):
+    # Tokenize the text to input_ids, attention_mask
+    tokenized_inputs = tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512)
+    # Prepare labels: labels are the same as input_ids for language modeling
+    tokenized_inputs["labels"] = tokenized_inputs["input_ids"].copy()
+    return tokenized_inputs
+# Tokenize the entire dataset.
+tokenized_datasets = dataset.map(tokenize_function, batched=True)
+# Remove the 'text' column as it's no longer needed after tokenization.
+tokenized_datasets = tokenized_datasets.remove_columns(["text"])
+# Set the format of the dataset to PyTorch tensors.
+tokenized_datasets.set_format(type="torch", columns=["input_ids", "attention_mask", "labels"])
+# Load the GPT-2 model.
+model = GPT2LMHeadModel.from_pretrained("gpt2")
+# Define training arguments.
+training_args = TrainingArguments(
+    output_dir="./output",
+    overwrite_output_dir=True,
+    num_train_epochs=3,
+    per_device_train_batch_size=4,
+    save_steps=10_000,
+    save_total_limit=2,
+)
+# Initialize the Trainer with the training dataset including labels.
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_datasets["train"],
+)
+# Start the training process.
+trainer.train()
+# Save the fine-tuned model and tokenizer.
+model.save_pretrained("fine_tuned_gpt2_model")
+tokenizer.save_pretrained("fine_tuned_gpt2_model")

fypmc20277423/output/runs/Mar31_21-01-46_LAPTOP-23I4320M/events.out.tfevents.1711915307.LAPTOP-23I4320M.22972.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f422cc424360ad0b6d022f492ce2d8d45fa8fb317ad09588d920344d1bfdaad
+size 4805

fypmc20277423/requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+torch
+transformers[torch]
+streamlit
+accelerate>=0.21.0

fypmc20277423/training.txt ADDED Viewed

The diff for this file is too large to render. See raw diff