Spaces:

amos1088
/

train-mbed

Paused

train-mbed / test_scores /analyze_each_dataset.py

cae25d0 15 days ago

11.3 kB

	"""
	Create individual markdown reports for each BEIR dataset
	Analyze Score 1 vs Score 2 meanings with examples
	"""

	import json
	import os
	import random
	from pathlib import Path
	from collections import defaultdict

	def create_dataset_report(dataset_name, beir_base_path):
	"""Create a detailed markdown report for a single dataset"""
	dataset_path = Path(beir_base_path) / dataset_name

	if not dataset_path.exists():
	return None

	report = []
	report.append(f"# {dataset_name.upper()} Dataset Analysis\n")
	report.append(f"## Overview\n")

	# Check which splits exist
	qrels_path = dataset_path / "qrels"
	if not qrels_path.exists():
	report.append("No qrels directory found.\n")
	return "\n".join(report)

	# Load queries
	queries = {}
	queries_file = dataset_path / "queries.jsonl"
	if queries_file.exists():
	with open(queries_file, 'r') as f:
	for line in f:
	q = json.loads(line)
	queries[q['_id']] = q['text']
	report.append(f"- Total queries available: {len(queries)}\n")

	# Load MORE corpus for better examples
	corpus = {}
	corpus_count = 0
	corpus_file = dataset_path / "corpus.jsonl"
	if corpus_file.exists():
	with open(corpus_file, 'r') as f:
	for i, line in enumerate(f):
	corpus_count += 1
	if i < 50000: # Load MUCH MORE for examples
	doc = json.loads(line)
	corpus[doc['_id']] = {
	'title': doc.get('title', ''),
	'text': doc.get('text', '')
	}
	report.append(f"- Total corpus documents: {corpus_count}\n")
	report.append(f"- Corpus documents loaded for examples: {len(corpus)}\n")

	# Analyze each split
	split_data = {}
	all_score_examples = {} # Collect examples across all splits

	for split in ["train", "dev", "test"]:
	qrel_file = qrels_path / f"{split}.tsv"

	if qrel_file.exists():
	score_dist = {}
	queries_set = set()
	total_pairs = 0
	examples_by_query = {}

	with open(qrel_file, 'r') as f:
	# Skip header if exists
	first_line = f.readline().strip()
	if not first_line.startswith("query"):
	f.seek(0)

	for line in f:
	parts = line.strip().split('\t')
	if len(parts) >= 3:
	if len(parts) == 3:
	query_id, doc_id, score = parts
	else: # len(parts) == 4, TREC format
	query_id = parts[0]
	doc_id = parts[2]
	score = parts[3]
	score = int(float(score))

	queries_set.add(query_id)
	score_dist[score] = score_dist.get(score, 0) + 1
	total_pairs += 1

	# Collect ALL examples WITH SPLIT INFO
	if query_id in queries and doc_id in corpus:
	if score not in all_score_examples:
	all_score_examples[score] = {}
	key = f"{split}:{query_id}"
	if key not in all_score_examples[score]:
	all_score_examples[score][key] = []
	all_score_examples[score][key].append(doc_id)

	if query_id not in examples_by_query:
	examples_by_query[query_id] = {}
	if score not in examples_by_query[query_id]:
	examples_by_query[query_id][score] = []
	examples_by_query[query_id][score].append(doc_id)

	split_data[split] = {
	"queries": len(queries_set),
	"total_pairs": total_pairs,
	"score_dist": score_dist,
	"examples": examples_by_query
	}

	# Write split statistics
	report.append("\n## Split Statistics\n")
	report.append("\| Split \| Queries \| Total Pairs \| Score Distribution \|\n")
	report.append("\|-------\|---------\|-------------\|-------------------\|\n")

	for split in ["train", "dev", "test"]:
	if split in split_data:
	data = split_data[split]
	scores_str = ", ".join([f"{k}:{v}" for k, v in sorted(data["score_dist"].items())])
	report.append(f"\| {split} \| {data['queries']} \| {data['total_pairs']} \| {scores_str} \|\n")
	else:
	report.append(f"\| {split} \| N/A \| N/A \| N/A \|\n")

	# Analyze score meanings
	report.append("\n## Score Analysis\n")

	unique_scores = set()
	for split in split_data.values():
	unique_scores.update(split["score_dist"].keys())

	if len(unique_scores) == 1:
	report.append(f"Only one score level ({list(unique_scores)[0]}) found in this dataset.\n")
	report.append("- This means all labeled documents are considered equally relevant\n")
	report.append("- Unlabeled documents (not in qrels) are implicitly score 0 (not relevant)\n")
	else:
	report.append(f"Multiple score levels found: {sorted(unique_scores)}\n")


	# Add examples
	report.append("\n## Examples\n")

	# Show multiple examples with score comparisons
	report.append("### Score Comparison Examples\n")

	# Find queries with multiple score levels
	queries_with_multiple_scores = []
	for split_name, split in split_data.items():
	for query_id, scores_dict in split["examples"].items():
	if len(scores_dict) > 1 and query_id in queries:
	queries_with_multiple_scores.append((split_name, query_id, scores_dict))

	# Show up to 5 comparison examples
	if queries_with_multiple_scores:
	for i, (split_name, query_id, scores_dict) in enumerate(queries_with_multiple_scores[:5], 1):
	report.append(f"#### Comparison Example {i}\n")
	report.append(f"Query: {queries[query_id]}\n")
	report.append(f"From: {split_name} split\n\n")

	for score in sorted(scores_dict.keys(), reverse=True):
	doc_ids = scores_dict[score]
	report.append(f"Score {score} Documents:\n")

	shown = 0
	for doc_id in doc_ids[:3]: # Show up to 3 docs per score
	if doc_id in corpus:
	doc = corpus[doc_id]
	shown += 1
	report.append(f"\nDocument {shown}:\n")
	if doc['title']:
	report.append(f"- Title: {doc['title'][:200]}\n")
	text_preview = doc['text'][:400].replace('\n', ' ')
	report.append(f"- Text: {text_preview}...\n")

	report.append("\n")
	report.append("---\n\n")

	# Show examples PER SPLIT
	report.append("### Examples by Split and Score\n")

	for split in ["train", "dev", "test"]:
	if split not in split_data:
	continue

	report.append(f"\n#### {split.upper()} Split\n")

	# Get scores for this split
	split_scores = sorted(split_data[split]["score_dist"].keys())
	report.append(f"Scores in {split}: {split_scores}\n")

	for score in split_scores:
	report.append(f"\n##### Score {score} Examples ({split})\n")

	# Find examples for this score in this split
	examples_shown = 0
	for key, doc_ids in all_score_examples.get(score, {}).items():
	if key.startswith(f"{split}:"):
	query_id = key.split(':', 1)[1]
	if query_id in queries and examples_shown < 10: # Changed from 3 to 5
	examples_shown += 1
	report.append(f"\nExample {examples_shown}:\n")
	report.append(f"- Query: {queries[query_id]}\n")

	# Show first doc
	for doc_id in doc_ids[:1]:
	if doc_id in corpus:
	doc = corpus[doc_id]
	if doc['title']:
	report.append(f"- Doc Title: {doc['title']}\n")
	text_preview = doc['text'].replace('\n', ' ')
	report.append(f"- Doc Text: {text_preview}...\n")
	break

	if examples_shown == 0:
	report.append("No examples found in loaded corpus.\n")

	# Add sections to be filled
	report.append("\n## Training Recommendations\n")
	report.append("[TO BE FILLED BASED ON ANALYSIS]\n")

	report.append("\n## Observations\n")

	# Check for train/test mismatch
	if "train" in split_data and "test" in split_data:
	train_scores = set(split_data["train"]["score_dist"].keys())
	test_scores = set(split_data["test"]["score_dist"].keys())

	if train_scores != test_scores:
	report.append(f"⚠️ Score mismatch between train and test:\n")
	report.append(f"- Train has scores: {sorted(train_scores)}\n")
	report.append(f"- Test has scores: {sorted(test_scores)}\n")
	report.append(f"- This could cause issues when training models\n")

	# Check for single score in train
	if "train" in split_data:
	train_scores = set(split_data["train"]["score_dist"].keys())
	if len(train_scores) == 1 and 1 in train_scores:
	report.append(f"⚠️ Training data only has Score 1:\n")
	report.append(f"- All training documents are marked as equally relevant\n")
	report.append(f"- Model cannot learn to distinguish relevance levels\n")
	report.append(f"- May indicate collapsed/merged relevance levels\n")

	return "\n".join(report)

	def main():
	beir_base = "../beir_data"
	output_dir = Path(beir_base).parent / "test_scores" / "dataset_reports"
	output_dir.mkdir(exist_ok=True)

	# List all datasets
	datasets = [d for d in os.listdir(beir_base)
	if os.path.isdir(os.path.join(beir_base, d))]

	print("="*80)
	print("Creating individual dataset reports...")
	print("="*80)

	for dataset in sorted(datasets):
	print(f"Processing {dataset}...")
	report = create_dataset_report(dataset, beir_base)

	if report:
	# Save report
	output_file = output_dir / f"{dataset}_analysis.md"
	with open(output_file, 'w', encoding='utf-8') as f:
	f.write(report)
	print(f" ✓ Report saved to: {output_file}")

	print(f"\nAll reports saved in: {output_dir}")

	if __name__ == "__main__":
	main()