Spaces:

notabaka
/

ASRtest

Runtime error

notabaka commited on Feb 23, 2024

Commit

ff9f02f

1 Parent(s): 6ed8967

txtrct

Files changed (2) hide show

app.py CHANGED Viewed

@@ -2,12 +2,8 @@ import streamlit as st
 import torch
 import torch.nn.functional as F
 from torch import Tensor
-from transformers import AutoTokenizer, AutoModel
-import tempfile
 import textract
-import docx2txt
-import pdfplumber
-import io
 import os
 def last_token_pool(last_hidden_states: Tensor,
@@ -46,23 +42,9 @@ click = st.button("Search")
-def extract_text(doc):
-    if doc.type == 'text/plain':
-        return doc.read().decode('utf-8')
-    if doc.name.endswith(".pdf"):
-        docPath = save_upload(doc)
-        with pdfplumber.open(docPath) as pdf:
-            pages = [page.extract_text() for page in pdf.pages]
-            return "\n".join(pages)
-    if doc.name.endswith('.docx'):
-        raw_text = doc.read()
-        return docx2txt.process(raw_text)
     return None

 import torch
 import torch.nn.functional as F
 from torch import Tensor
 import textract
 import os
 def last_token_pool(last_hidden_states: Tensor,
+def extract_text(doc):
+    return textract.process(doc).decode('utf-8')
     return None

requirements.txt CHANGED Viewed

@@ -1,5 +1,3 @@
 torch
 transformers
-textract
-docx2txt
-pdfplumber

 torch
 transformers
+textract