Spaces:

cocoS2
/

review-analyzer

Sleeping

App Files Files Community

YeongMin commited on 24 days ago

Commit

1f53218

1 Parent(s): 8861c85

0.4v

Browse files

Files changed (2) hide show

.claude/settings.local.json +2 -1
app.py +168 -100

.claude/settings.local.json CHANGED Viewed

@@ -4,7 +4,8 @@
       "Bash(del:*)",
       "Bash(python3:*)",
       "Bash(lsof:*)",
-      "Bash(xargs kill -9)"
     ],
     "deny": [],
     "ask": []

       "Bash(del:*)",
       "Bash(python3:*)",
       "Bash(lsof:*)",
+      "Bash(xargs kill -9)",
+      "Bash(python app.py:*)"
     ],
     "deny": [],
     "ask": []

app.py CHANGED Viewed

@@ -359,6 +359,7 @@ class ReviewAnalyzer:
     def extract_evidence_from_text(self, text: str, category: str) -> str:
         """
         텍스트에서 특정 카테고리 관련 근거 문장 추출
         Args:
             text: 리뷰 텍스트
@@ -371,34 +372,41 @@ class ReviewAnalyzer:
         # 카테고리별 키워드 매핑
         keywords = {
-            "배송": ["배송", "택배", "도착", "포장", "빠르"],
-            "품질/디자인": ["품질", "재질", "튼튼", "내구", "완성도", "털빠짐", "빠짐", "디자인", "색상", "예쁘", "스타일", "외관", "이쁘"],
-            "사이즈": ["사이즈", "크기", "핏", "치수", "맞"],
             "교환/환불": ["교환", "환불", "반품"],
             "서비스": ["서비스", "고객센터", "응대", "친절"],
             "가격": ["가격", "가성비", "비싸", "저렴", "할인", "돈"],
             "기능/성능": ["기능", "성능", "작동", "효과", "사용"]
         }
-        # 문장 분리
-        sentences = re.split(r'[.!?~]+\s*', text)
-        # 카테고리 키워드가 포함된 문장 찾기
-        for sentence in sentences:
-            sentence = sentence.strip()
-            if category in keywords:
-                for keyword in keywords[category]:
-                    if keyword in sentence and len(sentence) > 5:
-                        # 너무 긴 문장은 잘라내기
-                        if len(sentence) > 40:
-                            sentence = sentence[:40] + "..."
-                        return f'"{sentence}"'
         return "-"
     def analyze_sentiment_for_category(self, text: str, category: str) -> str:
         """
         특정 카테고리에 대한 감정 분석
         Args:
             text: 리뷰 텍스트
@@ -409,11 +417,11 @@ class ReviewAnalyzer:
         """
         import re
-        # 카테고리 관련 키워드가 포함된 문장 찾기
         keywords = {
-            "배송": ["배송", "택배", "도착", "포장", "빠르"],
-            "품질/디자인": ["품질", "재질", "튼튼", "내구", "완성도", "털빠짐", "빠짐", "디자인", "색상", "예쁘", "스타일", "외관", "이쁘"],
-            "사이즈": ["사이즈", "크기", "핏", "치수", "맞"],
             "교환/환불": ["교환", "환불", "반품"],
             "서비스": ["서비스", "고객센터", "응대", "친절"],
             "가격": ["가격", "가성비", "비싸", "저렴", "할인", "돈"],
@@ -421,37 +429,108 @@ class ReviewAnalyzer:
         }
         # 긍정 키워드 (명시적 긍정 표현)
-        positive_keywords = ["좋", "훌륭", "만족", "최고", "예쁘", "이쁘", "딱맞", "빠르", "괜찮"]
         # 부정 키워드
-        negative_keywords = ["별로", "아쉽", "실망", "최악", "짜증", "문제"]
-        sentences = re.split(r'[.!?~]+\s*', text)
-        # 카테고리 관련 문장에서 감정 판단
-        if category in keywords:
-            for sentence in sentences:
-                # 카테고리 키워드가 포함된 문장만 검사
-                has_category_keyword = False
-                for keyword in keywords[category]:
-                    if keyword in sentence:
-                        has_category_keyword = True
-                        break
-                if has_category_keyword:
-                    # 긍정 키워드 체크
-                    for pos_keyword in positive_keywords:
-                        if pos_keyword in sentence:
-                            return "긍정"
-                    # 부정 키워드 체크
-                    for neg_keyword in negative_keywords:
-                        if neg_keyword in sentence:
-                            return "부정"
         # 기본값은 중립
         return "중립"
     def generate_comprehensive_analysis(self, review_text: str, analysis_result: Dict) -> Dict:
         """
         종합 분석 생성 - 항목별 평가 및 요약
@@ -465,14 +544,20 @@ class ReviewAnalyzer:
         """
         sentiment = analysis_result['sentiment']['sentiment']
         sentiment_scores = analysis_result['sentiment']['scores']
-        categories = analysis_result['categories']['main_categories']
         tone = analysis_result['tone']['tone']
         # 항목별 ��가
         item_ratings = []
-        for cat_info in categories:
-            category = cat_info['category']
-            confidence = cat_info['confidence']
             # 해당 카테고리의 감정 분석
             category_sentiment = self.analyze_sentiment_for_category(review_text, category)
@@ -481,66 +566,36 @@ class ReviewAnalyzer:
             if category_sentiment == "부정":
                 rating = 2
             elif category_sentiment == "긍정":
-                rating = self.generate_rating_from_sentiment(category, confidence, sentiment)
             else:
                 rating = 3
-            # 근거 추출
-            evidence = self.extract_evidence_from_text(review_text, category)
             item_ratings.append({
                 "category": category,
                 "rating": rating,
                 "evidence": evidence,
-                "confidence": confidence
             })
-        # 재구매 의향 추정
-        repurchase_score = 3  # 기본값
-        if sentiment == "긍정":
-            repurchase_score = 4
-            if sentiment_scores['긍정'] > 70:
-                repurchase_score = 5
-        elif sentiment == "부정":
-            repurchase_score = 2
-            if sentiment_scores['부정'] > 70:
-                repurchase_score = 1
-        else:
-            repurchase_score = 3
-        # 재구매 의향 근거
-        repurchase_keywords = ["또", "다시", "재구매", "추천", "환불", "최악"]
-        repurchase_evidence = "-"
-        for keyword in repurchase_keywords:
-            if keyword in review_text:
-                import re
-                sentences = re.split(r'[.!?~]+\s*', review_text)
-                for sentence in sentences:
-                    if keyword in sentence and len(sentence.strip()) > 5:
-                        repurchase_evidence = f'"{sentence.strip()[:40]}"'
-                        break
-                if repurchase_evidence != "-":
-                    break
         # 전체 톤 비율
         positive_ratio = sentiment_scores.get('긍정', 0)
         negative_ratio = sentiment_scores.get('부정', 0)
         neutral_ratio = sentiment_scores.get('중립', 0)
         # 요약 문장 생성
         summary = self.generate_summary_sentence(review_text, item_ratings, sentiment)
         return {
             "item_ratings": item_ratings,
-            "repurchase": {
-                "rating": repurchase_score,
-                "evidence": repurchase_evidence
-            },
             "tone_ratio": {
                 "positive": round(positive_ratio),
                 "negative": round(negative_ratio),
                 "neutral": round(neutral_ratio)
             },
             "summary": summary,
             "overall_sentiment": sentiment
         }
@@ -758,28 +813,31 @@ class ReviewAnalyzer:
             마크다운 형식의 문자열
         """
         output = "## ⚖️ 종합 분석\n\n"
-        output += "| 항목 | 평가 | 근거 |\n"
-        output += "|------|------|------|\n"
         # 항목별 평가
         for item in comprehensive['item_ratings']:
             stars = "⭐️" * item['rating']
-            output += f"| {item['category']} | {stars} | {item['evidence']} |\n"
-        # 재구매 의향
-        repurchase_stars = "⭐️" * comprehensive['repurchase']['rating']
-        output += f"| 재구매 의향 | {repurchase_stars} | {comprehensive['repurchase']['evidence']} |\n"
         # 전체 톤
         tone_ratio = comprehensive['tone_ratio']
-        output += f"| 전체 톤 | 긍정 {tone_ratio['positive']} : 부정 {tone_ratio['negative']} | "
         if tone_ratio['positive'] > tone_ratio['negative'] + 20:
-            output += "긍정이 우세함 |\n"
         elif tone_ratio['negative'] > tone_ratio['positive'] + 20:
-            output += "부정이 우세함 |\n"
         else:
-            output += "긍정과 부정이 혼재됨 |\n"
         # 요약 문장
         output += f"\n## 💡 요약 문장\n\n"
@@ -815,6 +873,7 @@ def create_gradio_app():
         ["배송이 생각보다 빨라서 좋았어요. 품질도 괜찮고 가격대비 만족합니다."],
         ["사이즈가 너무 작아요. 교환하려고 했는데 절차가 복잡하네요."],
         ["디자인은 예쁜데 품질이 가격에 비해 별로입니다. 그냥저냥이에요."],
     ]
     # Gradio 인터페이스 생성 - 모던 대시보드 레이아웃
@@ -935,14 +994,23 @@ def create_gradio_app():
                         show_label=True
                     )
-        gr.Markdown("---")
-        # 종합 분석 - 전체 너비, 아코디언 스타일
-        with gr.Accordion("⚖️ 종합 분석 & 인사이트", open=True):
-            comprehensive_output = gr.Markdown(
-                value="",
-                show_label=False
-            )
         # 이벤트 핸들러
         submit_btn.click(

     def extract_evidence_from_text(self, text: str, category: str) -> str:
         """
         텍스트에서 특정 카테고리 관련 근거 문장 추출
+        카테고리 키워드가 포함된 조각만 추출합니다.
         Args:
             text: 리뷰 텍스트
         # 카테고리별 키워드 매핑
         keywords = {
+            "배송": ["배송", "택배", "도착", "포장"],
+            "품질/디자인": ["품질", "재질", "튼튼", "내구", "완성도", "털빠짐", "빠짐", "디자인", "색상", "스타일", "외관"],
+            "사이즈": ["사이즈", "크기", "핏", "치수"],
             "교환/환불": ["교환", "환불", "반품"],
             "서비스": ["서비스", "고객센터", "응대", "친절"],
             "가격": ["가격", "가성비", "비싸", "저렴", "할인", "돈"],
             "기능/성능": ["기능", "성능", "작동", "효과", "사용"]
         }
+        if category not in keywords:
+            return "-"
+        category_keywords = keywords[category]
+        # 전체 텍스트를 조각으로 나누기 (쉼표, 그리고, 하지만 등으로 분리)
+        # 예: "배송도 빠르고 품질도 훌륭합니다" -> ["배송도 빠르고", "품질도 훌륭합니다"]
+        chunks = re.split(r'[,]|\s+그리고\s+|\s+근데\s+|\s+하지만\s+|\s+인데\s+', text)
+        for chunk in chunks:
+            chunk = chunk.strip()
+            # 이 조각에 카테고리 키워드가 있는지 확인
+            for keyword in category_keywords:
+                if keyword in chunk and len(chunk) > 5:
+                    # chunk를 그대로 사용 (이미 조각으로 분리되어 있으므로)
+                    # 단, 너무 긴 경우만 잘라내기
+                    if len(chunk) > 20:
+                        chunk = chunk[:20]
+                    return f'"{chunk}"'
         return "-"
     def analyze_sentiment_for_category(self, text: str, category: str) -> str:
         """
         특정 카테고리에 대한 감정 분석
+        카테고리 키워드 근처의 감정 표현만 분석합니다.
         Args:
             text: 리뷰 텍스트
         """
         import re
+        # 카테고리 관련 키워드
         keywords = {
+            "배송": ["배송", "택배", "도착", "포장"],
+            "품질/디자인": ["품질", "재질", "튼튼", "내구", "완성도", "털빠짐", "빠짐", "디자인", "색상", "스타일", "외관"],
+            "사이즈": ["사이즈", "크기", "핏", "치수"],
             "교환/환불": ["교환", "환불", "반품"],
             "서비스": ["서비스", "고객센터", "응대", "친절"],
             "가격": ["가격", "가성비", "비싸", "저렴", "할인", "돈"],
         }
         # 긍정 키워드 (명시적 긍정 표현)
+        positive_keywords = ["좋", "훌륭", "만족", "최고", "예쁘", "이쁘", "딱맞", "빠르", "괜찮", "완벽", "멋지", "감사"]
         # 부정 키워드
+        negative_keywords = ["별로", "아쉽", "실망", "최악", "짜증", "문제", "나쁘", "형편없", "엉망", "후회"]
+        if category not in keywords:
+            return "중립"
+        # 카테고리 키워드가 포함된 구간 찾기
+        category_keywords = keywords[category]
+        # 전체 텍스트를 조각으로 나누기 (쉼표, 그리고, 하지만 등으로 분리)
+        # 예: "배송은 빠른데 품질이 별로예요" -> ["배송은 빠른데", "품질이 별로예요"]
+        chunks = re.split(r'[,]|\s+그리고\s+|\s+근데\s+|\s+하지만\s+|\s+인데\s+', text)
+        for chunk in chunks:
+            # 이 조각에 카테고리 키워드가 있는지 확인
+            has_category = False
+            for keyword in category_keywords:
+                if keyword in chunk:
+                    has_category = True
+                    break
+            if not has_category:
+                continue
+            # 이 조각 내에서만 감정 판단
+            chunk_lower = chunk.lower()
+            # 긍정 키워드 체크
+            for pos_keyword in positive_keywords:
+                if pos_keyword in chunk_lower:
+                    return "긍정"
+            # 부정 키워드 체크
+            for neg_keyword in negative_keywords:
+                if neg_keyword in chunk_lower:
+                    return "부정"
         # 기본값은 중립
         return "중립"
+    def extract_tone_evidence(self, text: str) -> Dict[str, str]:
+        """
+        전체 톤의 긍정/부정 근거 추출
+        Args:
+            text: 리뷰 텍스트
+        Returns:
+            {"positive": "긍정 근거", "negative": "부정 근거"}
+        """
+        import re
+        # 긍정 키워드
+        positive_keywords = ["좋", "훌륭", "만족", "최고", "예쁘", "이쁘", "딱맞", "빠르", "괜찮", "완벽", "멋지", "감사"]
+        # 부정 키워드
+        negative_keywords = ["별로", "아쉽", "실망", "최악", "짜증", "문제", "나쁘", "형편없", "엉망", "후회", "다르"]
+        # 텍스트를 조각으로 나누기
+        chunks = re.split(r'[,.]|\s+그리고\s+|\s+근데\s+|\s+하지만\s+|\s+인데\s+', text)
+        positive_evidence = []
+        negative_evidence = []
+        for chunk in chunks:
+            chunk = chunk.strip()
+            if len(chunk) < 3:
+                continue
+            chunk_lower = chunk.lower()
+            # 긍정 키워드 체크 - chunk 그대로 사용
+            for keyword in positive_keywords:
+                if keyword in chunk_lower:
+                    # chunk를 그대로 사용 (이미 조각으로 분리되어 있으므로)
+                    evidence = chunk
+                    if len(evidence) > 20:
+                        evidence = evidence[:20]
+                    positive_evidence.append(f'"{evidence}"')
+                    break
+            # 부정 키워드 체크 - chunk 그대로 사용
+            for keyword in negative_keywords:
+                if keyword in chunk_lower:
+                    # chunk를 그대로 사용 (이미 조각으로 분리되어 있으므로)
+                    evidence = chunk
+                    if len(evidence) > 20:
+                        evidence = evidence[:20]
+                    negative_evidence.append(f'"{evidence}"')
+                    break
+        # 최대 2개씩만 표시
+        positive_text = ", ".join(positive_evidence[:2]) if positive_evidence else "-"
+        negative_text = ", ".join(negative_evidence[:2]) if negative_evidence else "-"
+        return {
+            "positive": positive_text,
+            "negative": negative_text
+        }
     def generate_comprehensive_analysis(self, review_text: str, analysis_result: Dict) -> Dict:
         """
         종합 분석 생성 - 항목별 평가 및 요약
         """
         sentiment = analysis_result['sentiment']['sentiment']
         sentiment_scores = analysis_result['sentiment']['scores']
         tone = analysis_result['tone']['tone']
+        # 모든 가능한 카테고리를 검사 (AI 결과와 무관하게)
+        all_possible_categories = ["배송", "품질/디자인", "사이즈", "교환/환불", "서비스", "가격", "기능/성능"]
         # 항목별 ��가
         item_ratings = []
+        for category in all_possible_categories:
+            # 근거 추출
+            evidence = self.extract_evidence_from_text(review_text, category)
+            # 근거가 없으면 해당 항목 제외
+            if evidence == "-":
+                continue
             # 해당 카테고리의 감정 분석
             category_sentiment = self.analyze_sentiment_for_category(review_text, category)
             if category_sentiment == "부정":
                 rating = 2
             elif category_sentiment == "긍정":
+                rating = 5
             else:
                 rating = 3
             item_ratings.append({
                 "category": category,
                 "rating": rating,
                 "evidence": evidence,
+                "sentiment": category_sentiment
             })
         # 전체 톤 비율
         positive_ratio = sentiment_scores.get('긍정', 0)
         negative_ratio = sentiment_scores.get('부정', 0)
         neutral_ratio = sentiment_scores.get('중립', 0)
+        # 전체 톤 근거 추출
+        tone_evidence = self.extract_tone_evidence(review_text)
         # 요약 문장 생성
         summary = self.generate_summary_sentence(review_text, item_ratings, sentiment)
         return {
             "item_ratings": item_ratings,
             "tone_ratio": {
                 "positive": round(positive_ratio),
                 "negative": round(negative_ratio),
                 "neutral": round(neutral_ratio)
             },
+            "tone_evidence": tone_evidence,
             "summary": summary,
             "overall_sentiment": sentiment
         }
             마크다운 형식의 문자열
         """
         output = "## ⚖️ 종합 분석\n\n"
+        output += "| 항목 | 감정 | 만족도 | 근거 |\n"
+        output += "|------|------|--------|------|\n"
         # 항목별 평가
         for item in comprehensive['item_ratings']:
             stars = "⭐️" * item['rating']
+            sentiment = item.get('sentiment', '중립')
+            output += f"| {item['category']} | {sentiment} | {stars} | {item['evidence']} |\n"
         # 전체 톤
         tone_ratio = comprehensive['tone_ratio']
+        tone_evidence = comprehensive.get('tone_evidence', {"positive": "-", "negative": "-"})
+        tone_summary = ""
         if tone_ratio['positive'] > tone_ratio['negative'] + 20:
+            tone_summary = "긍정이 우세함"
         elif tone_ratio['negative'] > tone_ratio['positive'] + 20:
+            tone_summary = "부정이 우세함"
         else:
+            tone_summary = "긍정과 부정이 혼재됨"
+        # 전체 톤 근거 포맷팅: "긍정: xxx / 부정: xxx"
+        tone_evidence_text = f"긍정: {tone_evidence['positive']} / 부정: {tone_evidence['negative']}"
+        output += f"| 전체 톤 | {tone_summary} | 긍정 {tone_ratio['positive']} : 부정 {tone_ratio['negative']} | {tone_evidence_text} |\n"
         # 요약 문장
         output += f"\n## 💡 요약 문장\n\n"
         ["배송이 생각보다 빨라서 좋았어요. 품질도 괜찮고 가격대비 만족합니다."],
         ["사이즈가 너무 작아요. 교환하려고 했는데 절차가 복잡하네요."],
         ["디자인은 예쁜데 품질이 가격에 비해 별로입니다. 그냥저냥이에요."],
+        ["세트 가격 가성비 최고예용❤️🤍　따뜻하고 폭닥폭닥한 느낌 너무 조아여!! 핏 너무 예뻐용!!!"]
     ]
     # Gradio 인터페이스 생성 - 모던 대시보드 레이아웃
                         show_label=True
                     )
+        # 종합 분석 - 전체 너비
+        gr.HTML('<div class="card-header sentiment-positive">⚖️ 종합 분석 & 인사이트</div>')
+        comprehensive_output = gr.Markdown(
+            value="""## ⚖️ 종합 분석
+| 항목 | 감정 | 만족도 | 근거 |
+|------|------|--------|------|
+| - | - | - | - |
+| 전체 톤 | - | - | - |
+## 💡 요약 문장
+**"리뷰를 입력하고 분석을 시작하세요"**
+""",
+            show_label=False
+        )
         # 이벤트 핸들러
         submit_btn.click(