oliverguhr
/

german-sentiment-bert

@@ -49,8 +49,8 @@ class SentimentModel():
         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.clean_chars = re.compile(r'[^A-Za-züöäÖÜÄß ]', re.MULTILINE)
-        self.clean_http_urls = re.compile(r'https*\S+', re.MULTILINE)
-        self.clean_at_mentions = re.compile(r'@\S+', re.MULTILINE)
     def predict_sentiment(self, texts: List[str])-> List[str]:
         texts = [self.clean_text(text) for text in texts]
@@ -70,7 +70,8 @@ class SentimentModel():
             return text.replace("0"," null").replace("1"," eins").replace("2"," zwei").replace("3"," drei").replace("4"," vier").replace("5"," fünf").replace("6"," sechs").replace("7"," sieben").replace("8"," acht").replace("9"," neun")
     def clean_text(self,text: str)-> str:
-            text = text.replace("\n", " ")
             text = self.clean_http_urls.sub('',text)
             text = self.clean_at_mentions.sub('',text)
             text = self.replace_numbers(text)
@@ -118,7 +119,7 @@ For feedback and questions contact me view mail or Twitter [@oliverguhr](https:/
   address        = {Marseille, France},
   publisher      = {European Language Resources Association},
   pages     = {1620--1625},
-  url       = {https://www.aclweb.org/anthology/2020.lrec-1.201}
 }
 ```

         self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.clean_chars = re.compile(r'[^A-Za-züöäÖÜÄß ]', re.MULTILINE)
+        self.clean_http_urls = re.compile(r'https*\\S+', re.MULTILINE)
+        self.clean_at_mentions = re.compile(r'@\\S+', re.MULTILINE)
     def predict_sentiment(self, texts: List[str])-> List[str]:
         texts = [self.clean_text(text) for text in texts]
             return text.replace("0"," null").replace("1"," eins").replace("2"," zwei").replace("3"," drei").replace("4"," vier").replace("5"," fünf").replace("6"," sechs").replace("7"," sieben").replace("8"," acht").replace("9"," neun")
     def clean_text(self,text: str)-> str:
+            text = text.replace("\
+", " ")
             text = self.clean_http_urls.sub('',text)
             text = self.clean_at_mentions.sub('',text)
             text = self.replace_numbers(text)
   address        = {Marseille, France},
   publisher      = {European Language Resources Association},
   pages     = {1620--1625},
+  url       = {https://www.aclweb.org/anthology/2020.lrec-1.202}
 }
 ```