Spaces:

jgyasu
/

aiisc-watermarking-model

Running

App Files Files Community

jgyasu commited on Jul 23, 2024

Commit

4b89d6b

verified ·

1 Parent(s): 4f150bd

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app.py +2 -4
masking_methods.py +44 -1

app.py CHANGED Viewed

@@ -1,3 +1,5 @@
 from transformers import AutoTokenizer
 from transformers import AutoModelForSeq2SeqLM
 import plotly.graph_objs as go
@@ -26,7 +28,6 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoModelForMaske
 import random
 from nltk.corpus import stopwords
 from termcolor import colored
-import nltk
 from nltk.translate.bleu_score import sentence_bleu
 from transformers import BertTokenizer, BertModel
 import gradio as gr
@@ -36,9 +37,6 @@ from lcs import find_common_subsequences
 from highlighter import highlight_common_words, highlight_common_words_dict
 from entailment import analyze_entailment
-nltk.download('stopwords')
 # Function for the Gradio interface
 def model(prompt):
     sentence = prompt

+import nltk
+nltk.download('stopwords')
 from transformers import AutoTokenizer
 from transformers import AutoModelForSeq2SeqLM
 import plotly.graph_objs as go
 import random
 from nltk.corpus import stopwords
 from termcolor import colored
 from nltk.translate.bleu_score import sentence_bleu
 from transformers import BertTokenizer, BertModel
 import gradio as gr
 from highlighter import highlight_common_words, highlight_common_words_dict
 from entailment import analyze_entailment
 # Function for the Gradio interface
 def model(prompt):
     sentence = prompt

masking_methods.py CHANGED Viewed

@@ -2,6 +2,7 @@ from transformers import AutoTokenizer, AutoModelForMaskedLM
 from transformers import pipeline
 import random
 from nltk.corpus import stopwords
 # Masking Model
 def mask_non_stopword(sentence):
@@ -14,6 +15,47 @@ def mask_non_stopword(sentence):
     masked_sentence = sentence.replace(word_to_mask, '[MASK]', 1)
     return masked_sentence
 # Load tokenizer and model for masked language model
 tokenizer = AutoTokenizer.from_pretrained("bert-large-cased-whole-word-masking")
 model = AutoModelForMaskedLM.from_pretrained("bert-large-cased-whole-word-masking")
@@ -22,4 +64,5 @@ fill_mask = pipeline("fill-mask", model=model, tokenizer=tokenizer)
 def mask(sentence):
     predictions = fill_mask(sentence)
     masked_sentences = [predictions[i]['sequence'] for i in range(len(predictions))]
-    return masked_sentences

 from transformers import pipeline
 import random
 from nltk.corpus import stopwords
+import math
 # Masking Model
 def mask_non_stopword(sentence):
     masked_sentence = sentence.replace(word_to_mask, '[MASK]', 1)
     return masked_sentence
+def mask_non_stopword_pseudorandom(sentence):
+    stop_words = set(stopwords.words('english'))
+    words = sentence.split()
+    non_stop_words = [word for word in words if word.lower() not in stop_words]
+    if not non_stop_words:
+        return sentence
+    random.seed(10)
+    word_to_mask = random.choice(non_stop_words)
+    masked_sentence = sentence.replace(word_to_mask, '[MASK]', 1)
+    return masked_sentence
+def high_entropy_words(sentence, non_melting_points):
+    stop_words = set(stopwords.words('english'))
+    words = sentence.split()
+    non_melting_words = set()
+    for _, point in non_melting_points:
+        non_melting_words.update(point.lower().split())
+    candidate_words = [word for word in words if word.lower() not in stop_words and word.lower() not in non_melting_words]
+    if not candidate_words:
+        return sentence
+    max_entropy = -float('inf')
+    max_entropy_word = None
+    for word in candidate_words:
+        masked_sentence = sentence.replace(word, '[MASK]', 1)
+        predictions = fill_mask(masked_sentence)
+        # Calculate entropy based on top 5 predictions
+        entropy = -sum(pred['score'] * math.log(pred['score']) for pred in predictions[:5])
+        if entropy > max_entropy:
+            max_entropy = entropy
+            max_entropy_word = word
+    return sentence.replace(max_entropy_word, '[MASK]', 1)
 # Load tokenizer and model for masked language model
 tokenizer = AutoTokenizer.from_pretrained("bert-large-cased-whole-word-masking")
 model = AutoModelForMaskedLM.from_pretrained("bert-large-cased-whole-word-masking")
 def mask(sentence):
     predictions = fill_mask(sentence)
     masked_sentences = [predictions[i]['sequence'] for i in range(len(predictions))]
+    return masked_sentences