Image-to-text-OCR

Runtime error

App Files Files Community

omkar56 commited on Dec 10, 2023

Commit

e4dd4df

•

1 Parent(s): 8c811eb

Update app.py

Browse files

Files changed (1) hide show

app.py +1 -60

app.py CHANGED Viewed

@@ -11,66 +11,6 @@ import pyclip
 import pytesseract
 from nltk.tokenize import sent_tokenize
 from transformers import MarianMTModel, MarianTokenizer
-# Newly added below
-from fastapi import FastAPI, File, UploadFile, Body, Depends, HTTPException
-from fastapi.security.api_key import APIKeyHeader
-from typing import Optional
-from fastapi.encoders import jsonable_encoder
-API_KEY = os.environ.get("API_KEY")
-app = FastAPI()
-api_key_header = APIKeyHeader(name="api_key", auto_error=False)
-def get_api_key(api_key: Optional[str] = Depends(api_key_header)):
-    if api_key is None or api_key != API_KEY:
-        raise HTTPException(status_code=401, detail="Unauthorized access")
-    return api_key
-@app.post("/ocr", response_model=dict)
-async def ocr(
-    api_key: str = Depends(get_api_key),
-    image: UploadFile = File(...),
-    languages: list = Body(["eng"])
-):
-    # if api_key != API_KEY:
-    #     return {"error": "Invalid API key"}, 401
-    try:
-        text = image_to_string(await image.read(), lang="+".join(languages))
-    except Exception as e:
-        return {"error": str(e)}, 500
-    return jsonable_encoder({"text": text})
-@app.post("/translate", response_model=dict)
-async def translate(
-    api_key: str = Depends(get_api_key),
-    text: str = Body(...),
-    src: str = "en",
-    trg: str = "zh",
-):
-    # if api_key != API_KEY:
-    #     return {"error": "Invalid API key"}, 401
-    tokenizer, model = get_model(src, trg)
-    translated_text = ""
-    for sentence in sent_tokenize(text):
-        translated_sub = model.generate(**tokenizer(sentence, return_tensors="pt"))[0]
-        translated_text += tokenizer.decode(translated_sub, skip_special_tokens=True) + "\n"
-    return jsonable_encoder({"translated_text": translated_text})
-def get_model(src: str, trg: str):
-    model_name = f"Helsinki-NLP/opus-mt-{src}-{trg}"
-    tokenizer = MarianTokenizer.from_pretrained(model_name)
-    model = MarianMTModel.from_pretrained(model_name)
-    return tokenizer, model
-# ===============================================
 nltk.download('punkt')
@@ -113,6 +53,7 @@ def ocr_lang(lang_list):
 # ocr tesseract
 def ocr_tesseract(img, languages):
     print("[img]", img)
     ocr_str = pytesseract.image_to_string(img, lang=ocr_lang(languages))
     return ocr_str

 import pytesseract
 from nltk.tokenize import sent_tokenize
 from transformers import MarianMTModel, MarianTokenizer
 nltk.download('punkt')
 # ocr tesseract
 def ocr_tesseract(img, languages):
     print("[img]", img)
+    print("[languages]", languages)
     ocr_str = pytesseract.image_to_string(img, lang=ocr_lang(languages))
     return ocr_str