bdpc
/

src

Model card Files Files and versions Community

src / simulate_document_classifier.py

bdpc

Upload 9 files

1ceb840 10 months ago

raw history blame contribute delete

No virus

8.94 kB

	import os
	from tqdm import tqdm
	import pandas as pd
	import numpy as np
	import torch
	from datasets import load_dataset, logging
	from datasets import Features, Value, Image, Sequence, Array3D, Array4D
	import evaluate
	from metrics import apply_metrics

	from transformers import AutoFeatureExtractor, AutoModelForImageClassification # DiT

	logger = logging.get_logger(__name__)

	from mapping_functions import (
	pdf_to_pixelvalues_extractor,
	nativepdf_to_pixelvalues_extractor,
	)
	from inference_methods import InferenceMethod

	EXPERIMENT_ROOT = "/mnt/lerna/experiments"


	def load_base_model():
	feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
	model = AutoModelForImageClassification.from_pretrained("microsoft/dit-base-finetuned-rvlcdip")
	return model, feature_extractor


	def logits_monitor(args, running_logits, references, predictions, identifier="a"):
	output_path = f"{EXPERIMENT_ROOT}/{args.model.split('/')[-1]}_{args.dataset.split('/')[-1]}_{args.inference_method}-{args.downsampling}-i{identifier}.npz"

	raw_output = torch.cat(
	[
	torch.cat(running_logits, dim=0).cpu(),
	torch.Tensor(references).unsqueeze(1),
	torch.Tensor(predictions).unsqueeze(1),
	torch.Tensor(np.arange(int(identifier) - len(references), int(identifier))).unsqueeze(1),
	],
	dim=1,
	)
	np.savez_compressed(output_path, raw_output.cpu().data.numpy())
	tqdm.write("saved raw test outputs to {}".format(output_path))


	def monitor_cleanup(args, buffer_keys):
	"""
	This merges all previous buffers to 1 file
	"""
	output_path = f"{EXPERIMENT_ROOT}/{args.model.split('/')[-1]}_{args.dataset.split('/')[-1]}_{args.inference_method}-{args.downsampling}"

	for i, identifier in enumerate(buffer_keys):
	identifier_path = f"{output_path}-i{identifier}.npz"
	saved = np.load(identifier_path)["arr_0"]
	if i == 0:
	catted = saved
	else:
	catted = np.concatenate([catted, saved])
	out_path = f"{output_path}-final.npz"
	np.savez_compressed(out_path, catted)
	tqdm.write("saved raw test outputs to {}".format(out_path))
	# cleanup
	for i, identifier in enumerate(buffer_keys):
	identifier_path = f"{output_path}-i{identifier}.npz"
	os.remove(identifier_path)


	def main(args):
	testds = load_dataset(
	args.dataset,
	cache_dir="/mnt/lerna/data/HFcache",
	split="test",
	revision=None if args.dataset != "bdpc/rvl_cdip_mp" else "d3a654c9f63f14d0aaa94e08aa30aa3dc20713c1",
	)

	if args.downsampling:
	testds = testds.select(list(range(0, args.downsampling)))

	model = AutoModelForImageClassification.from_pretrained(args.model)
	device = "cuda" if torch.cuda.is_available() else "cpu"
	model.to(device)
	label2idx = {label: i for label, i in model.config.label2id.items()} # .replace(" ", "_")
	print(label2idx)

	data_idx2label = dict(enumerate(testds.features["labels"].names))
	model_idx2label = dict(zip(label2idx.values(), label2idx.keys()))
	diff = [i for i in range(len(data_idx2label)) if data_idx2label[i] != model_idx2label[i]]
	if diff:
	print(f"aligning labels {diff}")
	testds = testds.align_labels_with_mapping(label2idx, "labels")

	inference_method = InferenceMethod[args.inference_method.upper()]
	dummy_inference_method = inference_method
	feature_extractor = AutoFeatureExtractor.from_pretrained(args.model)

	features = {
	**{k: v for k, v in testds.features.items() if k in ["labels", "pixel_values", "id"]},
	"pages": Value(dtype="int32"),
	"pixel_values": Array3D(dtype="float32", shape=(3, 224, 224)),
	}
	if not "sample" in inference_method.scope:
	features["pixel_values"] = Array4D(dtype="float32", shape=(None, 3, 224, 224))
	dummy_inference_method = InferenceMethod["max_confidence".upper()]
	features = Features(features)

	remove_columns = ["file"]
	if args.dataset == "bdpc/rvl_cdip_mp":
	image_preprocessor = lambda batch: pdf_to_pixelvalues_extractor(
	batch, feature_extractor, dummy_inference_method
	)
	encoded_testds = testds.map(
	image_preprocessor, features=features, remove_columns=remove_columns, desc="pdf_to_pixelvalues"
	)
	else:
	image_preprocessor = lambda batch: nativepdf_to_pixelvalues_extractor(
	batch, feature_extractor, dummy_inference_method
	)
	encoded_testds = testds.map(
	image_preprocessor,
	features=features,
	remove_columns=remove_columns,
	desc="pdf_to_pixelvalues",
	batch_size=10,
	)
	# remove_columns.append("images")

	# select approach
	print(f"Before filtering: {len(encoded_testds)}")
	more_complex_filter = lambda example: example["pages"] != 0 and not np.any(np.isnan(example["pixel_values"]))
	good_indices = [i for i, x in tqdm(enumerate(encoded_testds), desc="filter") if more_complex_filter(x)]
	encoded_testds = encoded_testds.select(good_indices)
	print(f"After filtering: {len(encoded_testds)}")

	metric = evaluate.load("accuracy")

	# going to have to manually iterate without dataloader and do tensor conversion
	encoded_testds.set_format(type="torch", columns=["pixel_values", "labels"])
	args.batch_size = args.batch_size if "sample" in inference_method.scope else 1
	dataloader = torch.utils.data.DataLoader(encoded_testds, batch_size=args.batch_size)

	running_logits = []
	predictions, references = [], []
	buffer_references = []
	buffer_predictions = []
	buffer = 0
	BUFFER_SIZE = 5000
	buffer_keys = []
	for i, batch in tqdm(enumerate(dataloader), desc="Inference loop"):
	with torch.no_grad():
	batch["labels"] = batch["labels"].to(device)
	batch["pixel_values"] = batch["pixel_values"].to(device)
	if "sample" in inference_method.scope:
	outputs = model(batch["pixel_values"].to(device))
	logits = outputs.logits
	buffer_predictions.extend(logits.argmax(-1).tolist())
	buffer_references.extend(batch["labels"].tolist())
	running_logits.append(logits)
	else:
	try:
	page_logits = model(batch["pixel_values"][0]).logits
	except Exception as e:
	print(f"something went wrong in inference {e}")
	continue
	prediction = inference_method.apply_decision_strategy(page_logits) # apply logic depending on method
	buffer_predictions.append(prediction.tolist())
	buffer_references.extend(batch["labels"].tolist())
	running_logits.append(page_logits.mean(0).unsqueeze(0)) # average over pages as representative

	buffer += args.batch_size
	if buffer >= BUFFER_SIZE:
	predictions.extend(buffer_predictions)
	references.extend(buffer_references)
	logits_monitor(args, running_logits, buffer_references, buffer_predictions, identifier=str(i))
	buffer_keys.append(str(i))
	running_logits = []
	buffer_references = []
	buffer_predictions = []
	buffer = 0

	if buffer != 0: # dump remaining out of buffer
	predictions.extend(buffer_predictions)
	references.extend(buffer_references)
	logits_monitor(args, running_logits, buffer_references, buffer_predictions, identifier=str(i))
	buffer_keys.append(str(i))

	accuracy = metric.compute(references=references, predictions=predictions)
	print(f"Accuracy on this inference configuration {inference_method}:", accuracy)
	monitor_cleanup(args, buffer_keys)


	if __name__ == "__main__":
	from argparse import ArgumentParser

	parser = ArgumentParser("""Test different inference strategies to classify a document""")
	parser.add_argument(
	"inference_method",
	type=str,
	default="first",
	nargs="?",
	help="how to evaluate DiT on RVL-CDIP_multi",
	)
	parser.add_argument("-s", dest="downsampling", type=int, default=0, help="number of testset samples")
	parser.add_argument("-d", dest="dataset", type=str, default="bdpc/rvl_cdip_mp", help="the dataset to be evaluated")
	parser.add_argument(
	"-m",
	dest="model",
	type=str,
	default="microsoft/dit-base-finetuned-rvlcdip",
	help="the model checkpoint to be evaluated",
	)
	parser.add_argument("-b", dest="batch_size", type=int, default=16, help="batch size")
	parser.add_argument(
	"-k",
	dest="keep_in_memory",
	default=False,
	action="store_true",
	help="do not cache operations (for testing)",
	)

	args = parser.parse_args()

	main(args)