Spaces:

Ashish-R
/

LLMFromScratch

Sleeping

App Files Files Community

Ashish Reddy commited on Jun 10, 2025

Commit

8ea429a

1 Parent(s): edfd494

la

Browse files

Files changed (2) hide show

requirements.txt +1 -2
train.py +1 -29

requirements.txt CHANGED Viewed

@@ -1,3 +1,2 @@
 torch
-gradio
-wandb


1	torch
2	+ gradio

train.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import torch, torch.nn as nn, torch.optim as optim, torch.nn.functional as F, wandb, time
 batch_size = 64
 max_len = 256
@@ -28,25 +28,6 @@ else:
     device = torch.device('cpu')
     print("Using device's CPU")
-"""
---- WandB Integration ---
-"""
-wandb.init(
-    project="nano-model-shakesphere-training",
-    config={
-        "learning_rate": learning_rate,
-        "architecture": "decoder-only-model",
-        "dataset": "tinyshakesphere",
-        "d_model": d_model,
-        "n_layer": n_layer,
-        "n_head": n_head,
-        "max_iters": max_iters,
-        "dropout": dropout
-    }
-)
 with open('input.txt', 'r', encoding='utf-8') as f:
     text = f.read()
@@ -128,12 +109,6 @@ if __name__ == "__main__":
             losses = estimate_loss()
             print(f"step {iter}: train loss {losses['train']:.4f}, val loss {losses['val']:.4f}")
-            wandb.log({
-                "iter": iter,
-                "train/loss": losses['train'],
-                "val/loss": losses['val'],
-                "lr": learning_rate
-            })
         iter_start = time.time()
         xb, yb = get_batch("train")
         logits, loss = model(xb, yb)
@@ -143,9 +118,6 @@ if __name__ == "__main__":
         iter_time = time.time() - iter_start
         print(f"Iteration {iter} completed in {iter_time:.2f} seconds")
-        wandb.log({"iter_time": iter_time})
-    wandb.finish()
     print("Training finished. Saving model state...")
     torch.save(model.state_dict(), 'nanogpt_model.pth')

+import torch, torch.nn as nn, torch.optim as optim, torch.nn.functional as F, time
 batch_size = 64
 max_len = 256
     device = torch.device('cpu')
     print("Using device's CPU")
 with open('input.txt', 'r', encoding='utf-8') as f:
     text = f.read()
             losses = estimate_loss()
             print(f"step {iter}: train loss {losses['train']:.4f}, val loss {losses['val']:.4f}")
         iter_start = time.time()
         xb, yb = get_batch("train")
         logits, loss = model(xb, yb)
         iter_time = time.time() - iter_start
         print(f"Iteration {iter} completed in {iter_time:.2f} seconds")
     print("Training finished. Saving model state...")
     torch.save(model.state_dict(), 'nanogpt_model.pth')