PaddleOCR

Sleeping

App Files Files Community

Toughen1 commited on Jul 13

Commit

f93329f

verified ·

1 Parent(s): d22018e

CPU

Browse files

Files changed (1) hide show

app.py +61 -37

app.py CHANGED Viewed

@@ -11,6 +11,29 @@ import numpy as np
 from paddleocr import PaddleOCR, draw_ocr
 from PIL import Image
 import gradio as gr
 LANG_CONFIG = {
@@ -22,7 +45,7 @@ LANG_CONFIG = {
     "japan": {"num_workers": 1},
 }
-# 语言检测映射 - 使用更可靠的方法
 LANG_MAP = {
     "ch": "中文",
     "en": "英文",
@@ -32,14 +55,14 @@ LANG_MAP = {
     "japan": "日语",
 }
-# 语言特征字符集
-LANG_FEATURES = {
-    "ch": set("的一是不了人我在有他这为之大来以个中上们到国说和地也子时道出而要于就下得可你年生自会那后能对着事其里所去行过家十用发天如然作方成者多日都三小军二公无同么经法当起与好看学进种将还分此心前面又定见只主没公从年可着同时至理化物现并提直题党性好它头应主实向当把几十用表已近万第调音真打太办现做感次带北林里无从化性相将应间手专这见民候深院查表化何南器声点今建月正机北装分十注位被反革力量门反象并果更系求把治取入总些形度持制管即及西做先将才结共接目路至城北口山战世强先产革律较本群决使见治及造百规热领即集什积六县接必照住治准革复每设始术精专向变团便石从按却代光命即保达干统持运复程究造何革命即系统计或设总色律象即物线划几领按更系院转些即总导度济深求传界拉干着真示制干提克度几管见导传命即总系具引势持使结构论完联常达设战表南究利世结构论完联常达设战表南究利世",),
-    "en": set("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"),
-    "fr": set("àâäæçéèêëîïôœùûüÿÀÂÄÆÇÉÈÊËÎÏÔŒÙÛÜŸ"),
-    "german": set("äöüßÄÖÜ"),
-    "korean": set(),  # 韩语字符集较复杂，使用其他方法检测
-    "japan": set("あいうえおかきくけこさしすせそたちつてとなにぬねのはひふへほまみむめもやゆよらりるれろわをんがぎぐげござじずぜぞだぢづでどばびぶべぼぱぴぷぺぽアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワヲンガギグゲゴザジズゼゾダヂヅデドバビブベボパピプペポ"),
 }
 CONCURRENCY_LIMIT = 8
@@ -95,7 +118,11 @@ class PaddleOCRModelManager(object):
 def create_model(lang):
-    return PaddleOCR(lang=lang, use_angle_cls=True, use_gpu=False)
 model_managers = {}
@@ -113,38 +140,34 @@ def close_model_managers():
 atexit.register(close_model_managers)
-def detect_language_by_features(text):
-    """基于特征字符集检测语言"""
-    if not text:
         return "en"
-    # 计算每种语言的特征字符出现比例
-    lang_scores = {}
-    for lang, char_set in LANG_FEATURES.items():
-        if not char_set:  # 跳过空字符集
-            continue
-        # 计算文本中该语言特征字符的数量
-        count = sum(1 for char in text if char in char_set)
-        if count > 0:
-            lang_scores[lang] = count / len(text)
-    # 特殊处理韩语（通过Unicode范围检测）
-    korean_count = sum(1 for char in text if '\uac00' <= char <= '\ud7a3')
-    if korean_count > 0:
-        lang_scores["korean"] = korean_count / len(text)
-    # 如果没有检测到任何语言特征，默认为英语
-    if not lang_scores:
         return "en"
-    # 返回特征比例最高的语言
-    return max(lang_scores.items(), key=lambda x: x[1])[0]
 def auto_detect_language(image_path):
     """使用多模型投票的方式检测语言"""
-    languages_to_try = ["ch", "en"]  # 先用这两种常见语言尝试
     results = {}
     for lang in languages_to_try:
@@ -155,10 +178,11 @@ def auto_detect_language(image_path):
                 # 提取所有文本
                 all_text = " ".join([line[1][0] for line in result])
                 if all_text.strip():
-                    # 基于提取的文本检测语言
-                    detected = detect_language_by_features(all_text)
                     results[detected] = results.get(detected, 0) + 1
-        except Exception:
             continue
     # 如果没有检测结果，默认使用英文

 from paddleocr import PaddleOCR, draw_ocr
 from PIL import Image
 import gradio as gr
+import fasttext
+# 加载fasttext语言检测模型
+# 首次运行时会自动下载模型
+try:
+    # 检查模型文件是否存在
+    model_path = os.path.join(os.path.dirname(os.path.abspath(__file__)), "lid.176.bin")
+    if not os.path.exists(model_path):
+        # 如果模型不存在，则下载
+        import urllib.request
+        print("下载fasttext语言检测模型...")
+        urllib.request.urlretrieve(
+            "https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin",
+            model_path
+        )
+    # 加载模型
+    lang_model = fasttext.load_model(model_path)
+    print("fasttext语言检测模型加载成功")
+except Exception as e:
+    print(f"警告: 无法加载fasttext模型: {e}")
+    lang_model = None
 LANG_CONFIG = {
     "japan": {"num_workers": 1},
 }
+# 语言映射表
 LANG_MAP = {
     "ch": "中文",
     "en": "英文",
     "japan": "日语",
 }
+# fasttext语言代码到PaddleOCR语言代码的映射
+FASTTEXT_TO_PADDLE = {
+    "zh": "ch",     # 中文
+    "en": "en",     # 英文
+    "fr": "fr",     # 法语
+    "de": "german", # 德语
+    "ko": "korean", # 韩语
+    "ja": "japan",  # 日语
 }
 CONCURRENCY_LIMIT = 8
 def create_model(lang):
+    # 为中文模型添加特殊参数，提高中文识别准确性
+    if lang == "ch":
+        return PaddleOCR(lang=lang, use_angle_cls=True, use_gpu=False, rec_char_dict_path='ppocr/utils/ppocr_keys_v1.txt')
+    else:
+        return PaddleOCR(lang=lang, use_angle_cls=True, use_gpu=False)
 model_managers = {}
 atexit.register(close_model_managers)
+def detect_language_with_fasttext(text):
+    """使用fasttext检测语言"""
+    if not text or not text.strip():
         return "en"
+    if lang_model is None:
+        # 如果fasttext模型加载失败，使用默认语言
         return "en"
+    try:
+        # 预处理文本，保留一定长度
+        text = text[:1000]  # 限制文本长度，提高效率
+        # 使用fasttext预测语言
+        predictions = lang_model.predict(text.replace('\n', ' '))
+        lang_code = predictions[0][0].replace('__label__', '')
+        # 映射到PaddleOCR支持的语言
+        return FASTTEXT_TO_PADDLE.get(lang_code, "en")
+    except Exception as e:
+        print(f"语言检测错误: {e}")
+        return "en"  # 出错时默认使用英文
 def auto_detect_language(image_path):
     """使用多模型投票的方式检测语言"""
+    # 尝试不同语言的模型
+    languages_to_try = ["en", "ch"]  # 先尝试英文，然后是中文
     results = {}
     for lang in languages_to_try:
                 # 提取所有文本
                 all_text = " ".join([line[1][0] for line in result])
                 if all_text.strip():
+                    # 使用fasttext检测语言
+                    detected = detect_language_with_fasttext(all_text)
                     results[detected] = results.get(detected, 0) + 1
+        except Exception as e:
+            print(f"OCR处理错误 ({lang}): {e}")
             continue
     # 如果没有检测结果，默认使用英文