Spaces:

yasserrmd
/

NotebookLlama

Running

yasserrmd commited on Oct 31, 2024

Commit

7fb740b

verified ·

1 Parent(s): 80a6d9f

Update extract_text_from_pdf.py

Files changed (1) hide show

extract_text_from_pdf.py CHANGED Viewed

@@ -8,12 +8,11 @@ from accelerate import Accelerator
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from tqdm import tqdm
 import warnings
 warnings.filterwarnings('ignore')
 class PDFTextExtractor:
     """
     A class to handle PDF text extraction and preprocessing for podcast preparation.
@@ -29,7 +28,8 @@ class PDFTextExtractor:
             model_name (str): Name of the model to use for text processing.
         """
-        model_name="meta-llama/Llama-3.2-1B-Instruct"
         self.pdf_path = pdf_path
         self.output_path = output_path
         self.max_chars = 100000
@@ -38,8 +38,8 @@ class PDFTextExtractor:
         # Initialize model and tokenizer
         self.accelerator = Accelerator()
-        self.model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16).to(self.device)
-        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.model, self.tokenizer = self.accelerator.prepare(self.model, self.tokenizer)
         # System prompt for text processing

 from transformers import AutoModelForCausalLM, AutoTokenizer
 from tqdm import tqdm
 import warnings
+import spaces
 warnings.filterwarnings('ignore')
+@spaces.GPU
 class PDFTextExtractor:
     """
     A class to handle PDF text extraction and preprocessing for podcast preparation.
             model_name (str): Name of the model to use for text processing.
         """
+        model_name="bartowski/Llama-3.2-1B-Instruct-GGUF"
+        filename = "Llama-3.2-1B-Instruct-Q5_K_S.gguf"
         self.pdf_path = pdf_path
         self.output_path = output_path
         self.max_chars = 100000
         # Initialize model and tokenizer
         self.accelerator = Accelerator()
+        self.model = AutoModelForCausalLM.from_pretrained(model_name, gguf_file=filename, torch_dtype=torch.bfloat16).to(self.device)
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name, gguf_file=filename)
         self.model, self.tokenizer = self.accelerator.prepare(self.model, self.tokenizer)
         # System prompt for text processing