Spaces:

StarPigeon
/

ViDove

Sleeping

App Files Files Community

Eason Lu commited on Mar 26, 2023

Commit

f1a218d

1 Parent(s): 007de42

solve empty time stamp;working on split

Browse files

Former-commit-id: 5d21ec7ff41e2e8fb5bfa670c885d5b5e0afb352

Files changed (1) hide show

SRT.py +50 -16

SRT.py CHANGED Viewed

@@ -6,28 +6,30 @@ class SRT_segment(object):
     def __init__(self, *args) -> None:
         if isinstance(args[0], dict):
             segment = args[0]
-            start_ms = int((segment['start']*100)%100*10)
-            end_ms = int((segment['end']*100)%100*10)
-            if start_ms == end_ms and int(segment['start']) == int(segment['end']): # avoid empty time stamp
-                end_ms+=500
-            start_time = str(timedelta(seconds=int(segment['start']), milliseconds=start_ms))
-            end_time = str(timedelta(seconds=int(segment['end']), milliseconds=end_ms))
-            if start_ms == 0:
-                self.start_time_str = str(0)+start_time.split('.')[0]+',000'
             else:
-                self.start_time_str = str(0)+start_time.split('.')[0]+','+start_time.split('.')[1][:3]
-            if end_ms == 0:
-                self.end_time_str = str(0)+end_time.split('.')[0]+',000'
             else:
-                self.end_time_str = str(0)+end_time.split('.')[0]+','+end_time.split('.')[1][:3]
             self.source_text = segment['text'][1:]
             self.duration = f"{self.start_time_str} --> {self.end_time_str}"
             self.translation = ""
         elif isinstance(args[0], list):
-            self.source_text = args[0][2][:-1]
             self.duration = args[0][1]
             self.start_time_str = self.duration.split(" --> ")[0]
             self.end_time_str = self.duration.split(" --> ")[1]
@@ -122,12 +124,44 @@ class SRT_script():
                     #print(lines[i])
         pass
-    def split_seg(self, seg_id):
         # TODO: evenly split seg to 2 parts and add new seg into self.segments
         pass
     def check_len_and_split(self, threshold):
         # TODO: if sentence length >= threshold, split this segments to two
         pass
     def get_source_only(self):

     def __init__(self, *args) -> None:
         if isinstance(args[0], dict):
             segment = args[0]
+            self.start = segment['start']
+            self.end = segment['end']
+            self.start_ms = int((segment['start']*100)%100*10)
+            self.end_ms = int((segment['end']*100)%100*10)
+            if self.start_ms == self.end_ms and int(segment['start']) == int(segment['end']): # avoid empty time stamp
+                self.end_ms+=500
+            self.start_time = timedelta(seconds=int(segment['start']), milliseconds=self.start_ms)
+            self.end_time = timedelta(seconds=int(segment['end']), milliseconds=self.end_ms)
+            if self.start_ms == 0:
+                self.start_time_str = str(0)+str(self.start_time).split('.')[0]+',000'
             else:
+                self.start_time_str = str(0)+str(self.start_time).split('.')[0]+','+self.start_time.split('.')[1][:3]
+            if self.end_ms == 0:
+                self.end_time_str = str(0)+str(self.end_time).split('.')[0]+',000'
             else:
+                self.end_time_str = str(0)+str(self.end_time).split('.')[0]+','+self.end_time.split('.')[1][:3]
             self.source_text = segment['text'][1:]
             self.duration = f"{self.start_time_str} --> {self.end_time_str}"
             self.translation = ""
         elif isinstance(args[0], list):
+            self.source_text = args[0][2]
             self.duration = args[0][1]
             self.start_time_str = self.duration.split(" --> ")[0]
             self.end_time_str = self.duration.split(" --> ")[1]
                     #print(lines[i])
         pass
+    def split_seg(self, seg_idx):
         # TODO: evenly split seg to 2 parts and add new seg into self.segments
+        seg = self.segments[seg_idx]
+        source_text = seg.source_text
+        translation = seg.translation
+        src_commas = [m.start() for m in re.finditer(',', source_text)]
+        trans_commas = [m.start() for m in re.finditer('，', translation)]
+        src_split_idx = src_commas[len(src_commas)//2 + 1] if len(src_commas) % 2 == 1 else src_commas[len(src_commas)//2]
+        trans_split_idx = trans_commas[len(src_commas)//2 + 1] if len(trans_commas) % 2 == 1 else trans_commas[len(trans_commas)//2]
+        src_seg1 = source_text[:src_split_idx]
+        src_seg2 = source_text[src_split_idx+1:]
+        trans_seg1 = translation[:trans_split_idx]
+        trans_seg2 = translation[trans_split_idx+1:]
+        start_seg1 = seg.start
+        end_seg1 = start_seg2 = seg.start + (seg.end - seg.start)/2
+        end_seg2 = seg.end
+        seg1_dict = {}
+        seg1_dict['text'] = src_seg1
+        seg1_dict['start'] = start_seg1
+        seg1_dict['end'] = end_seg1
+        seg1 = SRT_segment(seg1_dict)
+        seg1.translation = trans_seg1
+        seg2_dict = {}
+        seg2_dict['text'] = src_seg2
+        seg2_dict['start'] = start_seg2
+        seg2_dict['end'] = end_seg2
+        seg2 = SRT_segment(seg2_dict)
+        seg2.translation = trans_seg2
         pass
     def check_len_and_split(self, threshold):
         # TODO: if sentence length >= threshold, split this segments to two
         pass
     def get_source_only(self):