Spaces:

PledgeTracker
/

Pledge_Tracker

Sleeping

App Files Files Community

Pledge_Tracker / system /process_time.py

yulongchen

Add system

ed95e7f about 2 months ago

raw

history blame

8.37 kB

	import json
	import datetime
	import re
	import pandas as pd
	import os, argparse
	import random
	import csv
	from openai import OpenAI
	from huggingface_hub import hf_hub_download
	import json
	import os



	def gpt_4o_useful(input):
	client=OpenAI(api_key=os.environ.get("OAI"))
	response = client.chat.completions.create(
	model="gpt-4o",
	messages=[
	{
	"role": "user",
	"content": [
	{
	"type": "text",
	"text": input
	}
	]
	}
	],
	response_format={"type": "text"},
	temperature=0.0000000001,
	max_tokens=4096,
	top_p=0,
	frequency_penalty=0,
	presence_penalty=0,
	logprobs=True
	)

	text = response.choices[0].message.content

	if response.choices[0].logprobs and response.choices[0].logprobs.content:
	first_token_logprob = response.choices[0].logprobs.content[0]
	token = first_token_logprob.token
	logprob = first_token_logprob.logprob
	else:
	token = None
	logprob = None

	return text, token, logprob



	def get_ICL(data, top_k=None):

	ICL =""
	if top_k == None:
	data = data
	else:
	# print(data)
	data = data[:top_k]
	for line in data:
	# line = json.loads(line)
	pledge = line["pledge"]
	event = line["event_description"]
	time = line["event_date"]
	input=f"Pledge: {pledge}\nEvent Summary: {event} (Event Date: {time})\nIs this event summary useful to track the fulfilment of this pledge"
	input = input.strip()
	output = line["label"].strip()
	ICL = f"{ICL}Input: {input}\nOutput: {output}\n\n"
	return ICL

	def load_json(file_path):
	with open(file_path, 'r', encoding='utf-8') as f:
	data = json.load(f)
	return data


	def gpt_eval(test_instance, train_data, instruction, suggestion_meta, ICL_id=None):

	if suggestion_meta:
	# print(ICL_id)

	train_data = [line for line in train_data if str(line.get("pledge_id")) == str(ICL_id)]

	else:
	random.seed(42)
	random.shuffle(train_data)

	ICL = get_ICL(train_data, top_k=50)
	# print(ICL)
	input = f"{instruction}\nBelow are examples:\n\n{ICL}Now, please assign a label for the below instance.\nInput: {test_instance}\nOutput:"

	try:
	text, tokens, logprobs = gpt_4o_useful(input)
	except Exception as e:
	print(e)
	tokens = None
	logprobs = None

	return tokens, logprobs

	def extract_columns_to_dict(file_path, delimiter='\t'):

	data_dict = {}

	with open(file_path, mode='r', encoding='utf-8') as file:
	reader = csv.reader(file, delimiter=delimiter)
	for row in reader:
	if len(row) >= 4:
	key = row[2]
	value = row[3]
	data_dict[key] = value

	return data_dict


	import datetime
	import re

	def parse_date(date_str):
	if not date_str:
	return None, date_str
	date_str = date_str.strip()

	# Case 1: YYYY-MM-DD
	try:
	return datetime.datetime.strptime(date_str, "%Y-%m-%d"), date_str
	except ValueError:
	pass

	# Case 2: Relative date
	match = re.search(r'(.*) \(relative to (\d{4}-\d{2}-\d{2})\)', date_str)
	if match:
	reference = datetime.datetime.strptime(match.group(2), "%Y-%m-%d")
	relative_term = match.group(1).strip().lower()
	if relative_term == "last month":
	target_date = reference - datetime.timedelta(days=30)
	elif relative_term == "yesterday":
	target_date = reference - datetime.timedelta(days=1)
	elif relative_term == "last week":
	target_date = reference - datetime.timedelta(days=7)
	elif relative_term == "this week":
	target_date = reference
	else:
	return None, date_str
	return target_date, date_str # ✅ 返回 datetime 对象，不是字符串

	# Case 3: YYYY
	match = re.fullmatch(r'(\d{4})', date_str)
	if match:
	year = int(match.group(1))
	return datetime.datetime(year, 1, 1), date_str

	# Case 4: Month YYYY
	match = re.fullmatch(r'(\w+) (\d{4})', date_str)
	if match:
	try:
	target_date = datetime.datetime.strptime(date_str, "%B %Y")
	return target_date, date_str
	except ValueError:
	return None, date_str

	# Case 5: YYYY-QX
	match = re.fullmatch(r'(\d{4})-Q(\d)', date_str)
	if match:
	year, quarter = int(match.group(1)), int(match.group(2))
	month = (quarter - 1) * 3 + 1
	return datetime.datetime(year, month, 1), date_str

	# Case 6: YYYY Season
	match = re.fullmatch(r'(\d{4}) (Spring\|Summer\|Autumn\|Fall\|Winter)', date_str, re.IGNORECASE)
	if match:
	year = int(match.group(1))
	season_map = {"spring": 3, "summer": 6, "autumn": 9, "fall": 9, "winter": 12}
	month = season_map[match.group(2).lower()]
	return datetime.datetime(year, month, 1), date_str

	return None, date_str


	def extract_and_sort_events(data_dir, pledge_date, pledge_author, claim, suggestion_meta):

	events = []

	# url_path = os.path.join(data_dir, "augmented_search_results.tsv")
	# url_query_dict = extract_columns_to_dict(file_path=url_path, delimiter='\t')

	pledge = claim.strip()

	file_path = os.path.join(data_dir, "gpt4_event_extraction", "gpt4o_results_0_claim.json")
	gpt4_results_json = load_json(file_path)

	# print(gpt4_results_json)
	train_file_path = hf_hub_download(
	repo_id="PledgeTracker/demo_feedback",
	filename="train_useful.json",
	repo_type="dataset",
	token=os.environ["HF_TOKEN"]
	)

	with open(train_file_path, "r", encoding="utf-8") as f:
	train_data = json.load(f)
	# print(train_data[0])



	instruction_path = hf_hub_download(
	repo_id="PledgeTracker/demo_feedback",
	filename="instruction.txt",
	repo_type="dataset",
	token=os.environ["HF_TOKEN"]
	)

	instruction = open(instruction_path, "r").read()

	map_file_path = hf_hub_download(
	repo_id="PledgeTracker/demo_feedback",
	filename="mapping.txt",
	repo_type="dataset",
	token=os.environ["HF_TOKEN"]
	)
	mapping_f = open(map_file_path, "r").readlines()
	mapping = {}

	for map_id, line in enumerate(mapping_f):
	mapping[map_id] = int(line.strip())

	ICL_id = None
	if suggestion_meta:
	try:
	idx = int(suggestion_meta["index"])
	ICL_id = mapping.get(idx)
	print(f"[Suggestion] index: {idx} → pledge_id: {ICL_id}")
	except Exception as e:
	print(f"[Mapping error]: {e}")

	for doc in gpt4_results_json:
	mete_date = doc["date"]
	for event in doc.get("output", {}).get("events", []):
	parsed_date, original_date = parse_date(event["date"])

	if parsed_date:
	parsed_date_str = parsed_date.strftime("%Y-%m-%d")
	if parsed_date_str != mete_date:
	event_date_and_pub_date = f"{parsed_date_str} ({mete_date})"
	else:
	event_date_and_pub_date = parsed_date_str

	test_instance = f"Pledge: {pledge} (Speaker: {pledge_author}; Pledge Date: {pledge_date})\nEvent Summary: {event['event']} (Event Date: {original_date})\nIs this event summary useful to track the fulfilment of this pledge"

	label, score = gpt_eval(test_instance, train_data, instruction, suggestion_meta, ICL_id=ICL_id)

	URL = doc["url"]
	events.append({
	"date": original_date,
	"event date (publication date if different)": event_date_and_pub_date,
	"event": event["event"],
	"url": URL,
	"label": label,
	"confident": score,
	})

	events.sort(key=lambda x: parse_date(x["date"])[0], reverse=True)
	return events