sonoisa commited on
Commit
d0d9327
1 Parent(s): c20bcf6

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +9 -13
app.py CHANGED
@@ -69,7 +69,7 @@ def normalize_neologd(s):
69
  s = unicode_normalize("!”#$%&’()*+,-./:;<>?@[¥]^_`{|}〜", s) # keep =,・,「,」
70
  s = re.sub("[’]", "'", s)
71
  s = re.sub("[”]", '"', s)
72
- # s = s.upper()
73
  return s
74
 
75
 
@@ -79,7 +79,7 @@ def normalize_text(text):
79
 
80
  def normalize_title(title):
81
  title = title.strip()
82
-
83
  match = re.match(r"^「([^」]+)」$", title)
84
  if match:
85
  title = match.group(1)
@@ -87,18 +87,14 @@ def normalize_title(title):
87
  match = re.match(r"^POP素材「([^」]+)」$", title)
88
  if match:
89
  title = match.group(1)
90
-
91
- match = re.match(
92
- r"^(.*?)(の?(?:イラスト|イラストの|イラストト|イ子のラスト|イラス|イラスト文字|「イラスト文字」|イラストPOP文字|ペンキ文字|タイトル文字|イラスト・メッセージ|イラスト文字・バナー|キャラクター(たち)?|マーク|アイコン|シルエット|シルエット素材|フレーム(枠)|フレーム|フレーム素材|テンプレート|パターン|パターン素材|ライン素材|コーナー素材|リボン型バナー|評価スタンプ|背景素材))+(\s*([0-90-9]*|その[0-90-9]+)\s*(((|\()[^))]+()|\))|「[^」]+」|・.+)*(です。)?)",
93
- title,
94
- )
95
- if match:
96
- title = match.group(1) + ("" if match.group(3) is None else match.group(3))
97
- if title == "":
98
- raise ValueError(title)
99
-
100
  title = normalize_text(title)
101
-
 
 
 
102
  return title
103
 
104
 
 
69
  s = unicode_normalize("!”#$%&’()*+,-./:;<>?@[¥]^_`{|}〜", s) # keep =,・,「,」
70
  s = re.sub("[’]", "'", s)
71
  s = re.sub("[”]", '"', s)
72
+ s = s.lower()
73
  return s
74
 
75
 
 
79
 
80
  def normalize_title(title):
81
  title = title.strip()
82
+
83
  match = re.match(r"^「([^」]+)」$", title)
84
  if match:
85
  title = match.group(1)
 
87
  match = re.match(r"^POP素材「([^」]+)」$", title)
88
  if match:
89
  title = match.group(1)
90
+
91
+ title = re.sub(r"(の?(?:イラスト|イラストの|イラストト|イ子のラスト|イラス|イラスト文字|「イラスト文字」|イラストPOP文字|ペンキ文字|タイトル文字|イラスト・メッセージ|イラスト文字・バナー|キャラクター(たち)?|マーク|アイコン|シルエット|シルエット素材|フレーム(枠)|フレーム|フレーム素材|テンプレート|パターン|パターン素材|ライン素材|コーナー素材|リボン型バナー|評価スタンプ|背景素材))+(\s*([0-90-9]*|その[0-90-9]+))(です。)?", "", title)
92
+
 
 
 
 
 
 
 
93
  title = normalize_text(title)
94
+
95
+ if title.strip() == "":
96
+ raise ValueError(title)
97
+
98
  return title
99
 
100