MoYoYoTech
/

Translator

ONNX

GGUF

conversational

Model card Files Files and versions

xet

Community

david commited on Apr 13, 2025

Commit

e1e0093

1 Parent(s): aca8f40

fix seg id error

Browse files

Files changed (1) hide show

transcribe/strategy.py +14 -11

transcribe/strategy.py CHANGED Viewed

@@ -147,7 +147,14 @@ class TranscriptBuffer:
         self._segments: List[str] = []     # 确认的完整段落
         self._sentences: List[str] = []    # 当前段落中的短句
         self._buffer: str = ""             # 当前缓冲中的文本
     def update_pending_text(self, text: str) -> None:
         """更新临时缓冲字符串"""
         self._buffer = text
@@ -158,16 +165,16 @@ class TranscriptBuffer:
             self._sentences.append(self._buffer)
             self._buffer = ""
-    def commit_paragraph(self, end_of_sentence: bool = False) -> None:
         """
         提交当前短句为完整段落（如句子结束）
         Args:
             end_of_sentence: 是否为句子结尾（如检测到句号）
         """
-        self.commit_line()
-        if end_of_sentence and self._sentences:
             self._segments.append("".join(self._sentences))
             self._sentences.clear()
@@ -175,12 +182,11 @@ class TranscriptBuffer:
         self.update_pending_text(stable_string)
         if is_end_sentence:
             self.commit_paragraph(end_of_sentence=True)
         else:
             self.commit_line()
         self.update_pending_text(remaining_string)
-    def get_seg_id(self) -> int:
-        return len(self._segments)
     @property
     def paragraph(self) -> str:
@@ -197,7 +203,6 @@ class TranscriptBuffer:
         """最新确认的段落"""
         return self._segments[-1] if self._segments else ""
     @property
     def current_not_commit_text(self) -> str:
         return self.paragraph + self.pending_text
@@ -274,23 +279,21 @@ class TranscriptStabilityAnalyzer:
         prev_seg_id = self._transcript_buffer.get_seg_id()
         self._transcript_buffer.update_and_commit(stable_str, remaining_str, is_end_sentence)
-        curr_seg_id = self._transcript_buffer.get_seg_id()
         logger.debug(f"current buffer: {self._transcript_buffer.__dict__}")
-        if curr_seg_id > prev_seg_id:
             # 表示生成了一个新段落 换行
             yield TranscriptResult(
-                seg_id=curr_seg_id-1,
                 cut_index=frame_cut_index,
                 context=self._transcript_buffer.latest_paragraph,
                 is_end_sentence=True
             )
         # 如果还有挂起的文本
         if (current_not_commit_text := self._transcript_buffer.current_not_commit_text.strip()):
             yield TranscriptResult(
-                seg_id=curr_seg_id,
                 cut_index=frame_cut_index,
                 context=current_not_commit_text
             )

         self._segments: List[str] = []     # 确认的完整段落
         self._sentences: List[str] = []    # 当前段落中的短句
         self._buffer: str = ""             # 当前缓冲中的文本
+        self._current_seg_id: int =0
+    def get_seg_id(self) -> int:
+        return self._current_seg_id
+    def next_seg_id(self) -> int:
+        return self._current_seg_id + 1
     def update_pending_text(self, text: str) -> None:
         """更新临时缓冲字符串"""
         self._buffer = text
             self._sentences.append(self._buffer)
             self._buffer = ""
+    def commit_paragraph(self) -> None:
         """
         提交当前短句为完整段落（如句子结束）
         Args:
             end_of_sentence: 是否为句子结尾（如检测到句号）
         """
+        if self._sentences:
             self._segments.append("".join(self._sentences))
+            self._current_seg_id += 1
             self._sentences.clear()
         self.update_pending_text(stable_string)
         if is_end_sentence:
             self.commit_paragraph(end_of_sentence=True)
+            # if len() >=20
         else:
             self.commit_line()
         self.update_pending_text(remaining_string)
     @property
     def paragraph(self) -> str:
         """最新确认的段落"""
         return self._segments[-1] if self._segments else ""
     @property
     def current_not_commit_text(self) -> str:
         return self.paragraph + self.pending_text
         prev_seg_id = self._transcript_buffer.get_seg_id()
         self._transcript_buffer.update_and_commit(stable_str, remaining_str, is_end_sentence)
         logger.debug(f"current buffer: {self._transcript_buffer.__dict__}")
+        if self._transcript_buffer.get_seg_id() > prev_seg_id:
             # 表示生成了一个新段落 换行
             yield TranscriptResult(
+                seg_id=prev_seg_id,
                 cut_index=frame_cut_index,
                 context=self._transcript_buffer.latest_paragraph,
                 is_end_sentence=True
             )
         # 如果还有挂起的文本
         if (current_not_commit_text := self._transcript_buffer.current_not_commit_text.strip()):
             yield TranscriptResult(
+                seg_id=self._transcript_buffer.get_seg_id(),
                 cut_index=frame_cut_index,
                 context=current_not_commit_text
             )