Spaces:

StarPigeon
/

ViDove

Sleeping

App Files Files Community

worldqwq commited on Mar 24, 2023

Commit

b39d769

1 Parent(s): 5f10ef2

Use GPT prompt to solve sentence merging issue

Browse files

Former-commit-id: 6469c29004d96a82159e26f3f957f761005ca4ef

Files changed (1) hide show

SRT.py +32 -5

SRT.py CHANGED Viewed

@@ -3,6 +3,7 @@ import os
 import whisper
 from csv import reader
 import re
 class SRT_segment(object):
     def __init__(self, *args) -> None:
@@ -95,13 +96,36 @@ class SRT_script():
     def set_translation(self, translate:str, id_range:tuple):
         start_seg_id = id_range[0]
         end_seg_id = id_range[1]
         lines = translate.split('\n\n')
         if len(lines) != (end_seg_id - start_seg_id + 1):
-            print(id_range)
             for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
-                print(seg.source_text)
-            print(translate)
         for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
             # naive way to due with merge translation problem
@@ -112,7 +136,10 @@ class SRT_script():
                     lines.remove(lines[i])
                     if i == len(lines) - 1:
                         break
-                seg.translation = lines[i].split("：")[1]
         pass
     def split_seg(self, seg_id):

 import whisper
 from csv import reader
 import re
+import openai
 class SRT_segment(object):
     def __init__(self, *args) -> None:
     def set_translation(self, translate:str, id_range:tuple):
         start_seg_id = id_range[0]
         end_seg_id = id_range[1]
         lines = translate.split('\n\n')
         if len(lines) != (end_seg_id - start_seg_id + 1):
+            input_str = "\n";
+            #initialize GPT input
             for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
+                input_str += 'Sentence %d: ' %(i+1)+ seg.source_text + '\n'
+                #Append to prompt string
+                #Adds sentence index let GPT keep track of sentence breaks
+            input_str += translate
+            #append translate to prompt
+            response = openai.ChatCompletion.create(
+                model="gpt-3.5-turbo",
+                messages = [
+                    {"role": "system", "content": "You are a helpful assistant that help calibrates English to Chinese subtitle translations in starcraft2."},
+                    {"role": "system", "content": "You are provided with a translated Chinese transcript, you need to reformat the Chinese sentence to match the meaning and sentence number as the English transcript"},
+                    {"role": "system", "content": "There is no need for you to add any comments or notes, and do not modify the English transcript."},
+                    {"role": "user", "content": 'Reformat the Chinese with the English transcript given: "{}"'.format(input_str)}
+                ],
+               temperature=0.15
+            )
+            translate = response['choices'][0]['text'].strip()
+            #print(id_range)
+            #for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
+            #    print(seg.source_text)
+            #print(translate)
         for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
             # naive way to due with merge translation problem
                     lines.remove(lines[i])
                     if i == len(lines) - 1:
                         break
+                try:
+                    seg.translation = lines[i].split("：" or ": ")[1]
+                except:
+                    seg.translation = lines[i]
         pass
     def split_seg(self, seg_id):