Spaces:

smgc
/

pplx2api

Running

smgc commited on Sep 29

Commit

4c084ad

•

1 Parent(s): da88775

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import os
 import json
 import uuid
-import re
 from datetime import datetime
 from flask import Flask, request, Response, jsonify
 import socketio
@@ -9,6 +9,9 @@ import requests
 import logging
 from threading import Event
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
@@ -77,10 +80,9 @@ def normalize_content(content):
 def calculate_tokens(text):
     """
-    计算输入文本的 token 数量。我们通过正则表达式来进行 tokenization，确保标点符号和单词都被正确计算为 token。
     """
-    # 使用正则表达式匹配单词和标点符号
-    tokens = re.findall(r"\w+|[^\w\s]", text)
     return len(tokens)
 @app.route('/')

 import os
 import json
 import uuid
+import nltk
 from datetime import datetime
 from flask import Flask, request, Response, jsonify
 import socketio
 import logging
 from threading import Event
+# 下载nltk的 punkt模型，用于标记化
+nltk.download('punkt')
 app = Flask(__name__)
 logging.basicConfig(level=logging.INFO)
 def calculate_tokens(text):
     """
+    使用 nltk 的 word_tokenize 进行 token 计算。
     """
+    tokens = nltk.word_tokenize(text)
     return len(tokens)
 @app.route('/')