smgc commited on
Commit
4c084ad
1 Parent(s): da88775

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +6 -4
app.py CHANGED
@@ -1,7 +1,7 @@
1
  import os
2
  import json
3
  import uuid
4
- import re
5
  from datetime import datetime
6
  from flask import Flask, request, Response, jsonify
7
  import socketio
@@ -9,6 +9,9 @@ import requests
9
  import logging
10
  from threading import Event
11
 
 
 
 
12
  app = Flask(__name__)
13
  logging.basicConfig(level=logging.INFO)
14
 
@@ -77,10 +80,9 @@ def normalize_content(content):
77
 
78
  def calculate_tokens(text):
79
  """
80
- 计算输入文本的 token 数量。我们通过正则表达式来进行 tokenization,确保标点符号和单词都被正确计算为 token
81
  """
82
- # 使用正则表达式匹配单词和标点符号
83
- tokens = re.findall(r"\w+|[^\w\s]", text)
84
  return len(tokens)
85
 
86
  @app.route('/')
 
1
  import os
2
  import json
3
  import uuid
4
+ import nltk
5
  from datetime import datetime
6
  from flask import Flask, request, Response, jsonify
7
  import socketio
 
9
  import logging
10
  from threading import Event
11
 
12
+ # 下载nltk的 punkt模型,用于标记化
13
+ nltk.download('punkt')
14
+
15
  app = Flask(__name__)
16
  logging.basicConfig(level=logging.INFO)
17
 
 
80
 
81
  def calculate_tokens(text):
82
  """
83
+ 使用 nltk word_tokenize 进行 token 计算。
84
  """
85
+ tokens = nltk.word_tokenize(text)
 
86
  return len(tokens)
87
 
88
  @app.route('/')