Spaces:

Dusan
/

clickbaitonator

Runtime error

App Files Files Community

Dusan Svilarkovic commited on Jul 16, 2022

Commit

f174230

2 Parent(s): 3ff5452 f055350

Merge branch 'main' of https://huggingface.co/spaces/Dusan/clickbaitonator into main

Browse files

Files changed (8) hide show

app.py +113 -113
fudge/data.py +3 -3
fudge/evaluate_clickbait.py +4 -4
fudge/model.py +3 -3
fudge/poetry_util.py +1 -1
fudge/predict_clickbait.py +4 -4
fudge/util.py +1 -1
requirements.txt +4 -1

app.py CHANGED Viewed

@@ -1,114 +1,114 @@
-# import os
-# os.chdir('naacl-2021-fudge-controlled-generation/')
-import gradio as gr
-from fudge.predict_clickbait import generate_clickbait, tokenizer, classifier_tokenizer
-from datasets import load_dataset,DatasetDict,Dataset
-# from datasets import
-from transformers import AutoTokenizer,AutoModelForSeq2SeqLM
-import numpy as np
-from sklearn.model_selection import train_test_split
-import pandas as pd
-from sklearn.utils.class_weight import compute_class_weight
-import torch
-import pandas as pd
-from fudge.model import Model
-import os
-from argparse import ArgumentParser
-from collections import namedtuple
-import mock
-from tqdm import tqdm
-import numpy as np
-import torch.nn as nn
-import torch.nn.functional as F
-from data import Dataset
-from fudge.util import save_checkpoint, ProgressMeter, AverageMeter, num_params
-from fudge.constants import *
-# imp.reload(model)
-pretrained_model = "../checkpoint-150/"
-generation_model = AutoModelForSeq2SeqLM.from_pretrained(pretrained_model, return_dict=True).to(device)
-device = 'cuda'
-pad_id = 0
-generation_model.eval()
-model_args = mock.Mock()
-model_args.task = 'clickbait'
-model_args.device = device
-model_args.checkpoint = '../checkpoint-1464/'
-# conditioning_model = Model(model_args, pad_id, len(dataset_info.index2word)) # no need to get the glove embeddings when reloading since they're saved in model ckpt anyway
-conditioning_model = Model(model_args, pad_id, vocab_size=None) # no need to get the glove embeddings when reloading since they're saved in model ckpt anyway
-conditioning_model = conditioning_model.to(device)
-conditioning_model.eval()
-condition_lambda = 5.0
-length_cutoff = 50
-precondition_topk = 200
-conditioning_model.classifier
-model_args.checkpoint
-classifier_tokenizer = AutoTokenizer.from_pretrained(model_args.checkpoint, load_best_model_at_end=True)
-def rate_title(input_text, model, tokenizer, device='cuda'):
-  # input_text = {
-  #                 "postText": input_text['postText'],
-  #                 "truthClass" : input_text['truthClass']
-  #              }
-  tokenized_input = preprocess_function_title_only_classification(input_text,tokenizer=tokenizer)
-  # print(tokenized_input.items())
-  dict_tokenized_input = {k : torch.tensor([v]).to(device) for k,v in tokenized_input.items() if k != 'labels'}
-  predicted_class = float(model(**dict_tokenized_input).logits)
-  actual_class = input_text['truthClass']
-  # print(predicted_class, actual_class)
-  return {'predicted_class' : predicted_class}
-def preprocess_function_title_only_classification(examples,tokenizer=None):
-    model_inputs = tokenizer(examples['postText'], padding="longest", truncation=True, max_length=25)
-    model_inputs['labels'] = examples['truthClass']
-    return model_inputs
-def clickbait_generator(article_content, condition_lambda=5.0):
-    # result = "Hi {}! 😎. The Mulitple of {} is {}".format(name, number, round(number**2, 2))
-    results = generate_clickbait(model=generation_model,
-                        tokenizer=tokenizer,
-                        conditioning_model=conditioning_model,
-                        input_text=[None],
-                        dataset_info=dataset_info,
-                        precondition_topk=precondition_topk,
-                        length_cutoff=length_cutoff,
-                        condition_lambda=condition_lambda,
-                        article_content=article_content,
-                        device=device)
-    return results[0].replace('</s>', '').replace('<pad>', '')
-title = "Clickbait generator"
-description = """
-"Use the [Fudge](https://github.com/yangkevin2/naacl-2021-fudge-controlled-generation) implementation fine tuned for our purposes to try and create news headline you are looking for!"
-"""
-article = "Check out [the codebase for our model](https://github.com/dsvilarkovic/naacl-2021-fudge-controlled-generation) that this demo is based off of."
-app = gr.Interface(
-    title = title,
-    description = description,
-    label = 'Article content or paragraph',
-    fn = clickbait_generator,
-    inputs=["text", gr.Slider(0, 100, step=0.1, value=5.0)], outputs="text")
 app.launch()

+# import os
+# os.chdir('naacl-2021-fudge-controlled-generation/')
+import gradio as gr
+from fudge.predict_clickbait import generate_clickbait, tokenizer, classifier_tokenizer
+from datasets import load_dataset,DatasetDict,Dataset
+# from datasets import
+from transformers import AutoTokenizer,AutoModelForSeq2SeqLM
+import numpy as np
+from sklearn.model_selection import train_test_split
+import pandas as pd
+from sklearn.utils.class_weight import compute_class_weight
+import torch
+import pandas as pd
+from fudge.model import Model
+import os
+from argparse import ArgumentParser
+from collections import namedtuple
+import mock
+from tqdm import tqdm
+import numpy as np
+import torch.nn as nn
+import torch.nn.functional as F
+from fudge.data import Dataset
+from fudge.util import save_checkpoint, ProgressMeter, AverageMeter, num_params
+from fudge.constants import *
+# imp.reload(model)
+pretrained_model = "checkpoint-150/"
+generation_model = AutoModelForSeq2SeqLM.from_pretrained(pretrained_model, return_dict=True).to(device)
+device = 'cuda'
+pad_id = 0
+generation_model.eval()
+model_args = mock.Mock()
+model_args.task = 'clickbait'
+model_args.device = device
+model_args.checkpoint = 'checkpoint-1464/'
+# conditioning_model = Model(model_args, pad_id, len(dataset_info.index2word)) # no need to get the glove embeddings when reloading since they're saved in model ckpt anyway
+conditioning_model = Model(model_args, pad_id, vocab_size=None) # no need to get the glove embeddings when reloading since they're saved in model ckpt anyway
+conditioning_model = conditioning_model.to(device)
+conditioning_model.eval()
+condition_lambda = 5.0
+length_cutoff = 50
+precondition_topk = 200
+conditioning_model.classifier
+model_args.checkpoint
+classifier_tokenizer = AutoTokenizer.from_pretrained(model_args.checkpoint, load_best_model_at_end=True)
+def rate_title(input_text, model, tokenizer, device='cuda'):
+  # input_text = {
+  #                 "postText": input_text['postText'],
+  #                 "truthClass" : input_text['truthClass']
+  #              }
+  tokenized_input = preprocess_function_title_only_classification(input_text,tokenizer=tokenizer)
+  # print(tokenized_input.items())
+  dict_tokenized_input = {k : torch.tensor([v]).to(device) for k,v in tokenized_input.items() if k != 'labels'}
+  predicted_class = float(model(**dict_tokenized_input).logits)
+  actual_class = input_text['truthClass']
+  # print(predicted_class, actual_class)
+  return {'predicted_class' : predicted_class}
+def preprocess_function_title_only_classification(examples,tokenizer=None):
+    model_inputs = tokenizer(examples['postText'], padding="longest", truncation=True, max_length=25)
+    model_inputs['labels'] = examples['truthClass']
+    return model_inputs
+def clickbait_generator(article_content, condition_lambda=5.0):
+    # result = "Hi {}! 😎. The Mulitple of {} is {}".format(name, number, round(number**2, 2))
+    results = generate_clickbait(model=generation_model,
+                        tokenizer=tokenizer,
+                        conditioning_model=conditioning_model,
+                        input_text=[None],
+                        dataset_info=dataset_info,
+                        precondition_topk=precondition_topk,
+                        length_cutoff=length_cutoff,
+                        condition_lambda=condition_lambda,
+                        article_content=article_content,
+                        device=device)
+    return results[0].replace('</s>', '').replace('<pad>', '')
+title = "Clickbait generator"
+description = """
+"Use the [Fudge](https://github.com/yangkevin2/naacl-2021-fudge-controlled-generation) implementation fine tuned for our purposes to try and create news headline you are looking for!"
+"""
+article = "Check out [the codebase for our model](https://github.com/dsvilarkovic/naacl-2021-fudge-controlled-generation) that this demo is based off of."
+app = gr.Interface(
+    title = title,
+    description = description,
+    label = 'Article content or paragraph',
+    fn = clickbait_generator,
+    inputs=["text", gr.Slider(0, 100, step=0.1, value=5.0)], outputs="text")
 app.launch()

fudge/data.py CHANGED Viewed

@@ -12,9 +12,9 @@ import numpy as np
 from tqdm import tqdm
 import torch
-from util import suppress_stdout
-from poetry_util import is_iambic, count_syllables, get_rhymes, get_rhyme_group
-from constants import *
 DatasetInfo = namedtuple('DatasetInfo',
                 ['index2word', 'word2index', 'total_words', 'vocab', 'glove_embeddings'])

 from tqdm import tqdm
 import torch
+from fudge.util import suppress_stdout
+from fudge.poetry_util import is_iambic, count_syllables, get_rhymes, get_rhyme_group
+from fudge.constants import *
 DatasetInfo = namedtuple('DatasetInfo',
                 ['index2word', 'word2index', 'total_words', 'vocab', 'glove_embeddings'])

fudge/evaluate_clickbait.py CHANGED Viewed

@@ -15,10 +15,10 @@ import torch.nn.functional as F
 from transformers import AutoTokenizer, AutoModelWithLMHead
 from torch import Tensor
-from data import Dataset
-from model import Model
-from util import num_params
-from constants import *

 from transformers import AutoTokenizer, AutoModelWithLMHead
 from torch import Tensor
+from fudge.data import Dataset
+from fudge.model import Model
+from fudge.util import num_params
+from fudge.constants import *

fudge/model.py CHANGED Viewed

@@ -6,9 +6,9 @@ import torch.nn.functional as F
 from torch.nn.utils.rnn import pad_sequence, pad_packed_sequence, pack_padded_sequence
 from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, set_seed, GPT2Tokenizer, GPT2Model, GPT2LMHeadModel, GPT2Config, GPT2ForSequenceClassification, GPT2LMHeadModel, MarianTokenizer
-from constants import *
-from util import pad_mask
-from clickbait_classifier import BertClickbaitClassifier, ClickbaitConfig
 class Model(nn.Module):
     def __init__(self, args, gpt_pad_id, vocab_size, rhyme_group_size=None, glove_embeddings=None, verbose=True):

 from torch.nn.utils.rnn import pad_sequence, pad_packed_sequence, pack_padded_sequence
 from transformers import AutoTokenizer, AutoModelWithLMHead, pipeline, set_seed, GPT2Tokenizer, GPT2Model, GPT2LMHeadModel, GPT2Config, GPT2ForSequenceClassification, GPT2LMHeadModel, MarianTokenizer
+from fudge.constants import *
+from fudge.util import pad_mask
+from fudge.clickbait_classifier import BertClickbaitClassifier, ClickbaitConfig
 class Model(nn.Module):
     def __init__(self, args, gpt_pad_id, vocab_size, rhyme_group_size=None, glove_embeddings=None, verbose=True):

fudge/poetry_util.py CHANGED Viewed

@@ -4,7 +4,7 @@ import pronouncing
 from Phyme import Phyme
 phyme = Phyme()
-from constants import *
 def is_iambic(phrase):
     """

 from Phyme import Phyme
 phyme = Phyme()
+from fudge.constants import *
 def is_iambic(phrase):
     """

fudge/predict_clickbait.py CHANGED Viewed

@@ -15,10 +15,10 @@ import torch.nn.functional as F
 from transformers import AutoTokenizer, AutoModelWithLMHead
 from torch import Tensor
-from data import Dataset
-from model import Model
-from util import num_params
-from constants import *

 from transformers import AutoTokenizer, AutoModelWithLMHead
 from torch import Tensor
+from fudge.data import Dataset
+from fudge.model import Model
+from fudge.util import num_params
+from fudge.constants import *

fudge/util.py CHANGED Viewed

@@ -5,7 +5,7 @@ from contextlib import contextmanager
 import torch
-from constants import *
 @contextmanager
 def suppress_stdout():

 import torch
+from fudge.constants import *
 @contextmanager
 def suppress_stdout():

requirements.txt CHANGED Viewed

@@ -9,4 +9,7 @@ sacrebleu==1.4.14
 sacremoses==0.0.43
 mock==4.0.3
 torchtext #==0.8.1 --install-option="--no-deps"
-torchvision #==0.8.2 --install-option="--no-deps"

 sacremoses==0.0.43
 mock==4.0.3
 torchtext #==0.8.1 --install-option="--no-deps"
+torchvision #==0.8.2 --install-option="--no-deps"
+scikit-learn
+numpy
+pandas