Spaces:

DarrenDeo
/

News-Fact-Check

Sleeping

App Files Files Community

News-Fact-Check / src /evaluate.py

DarrenDeo

Final attempt: Deploy full models with correct LFS tracking

b544dec 6 months ago

raw

history blame contribute delete

8.82 kB

	# src/evaluate.py
	import pandas as pd
	import torch
	from torch.utils.data import Dataset, DataLoader
	from transformers import AutoTokenizer, AutoModelForSequenceClassification
	from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
	import matplotlib.pyplot as plt
	import seaborn as sns
	import numpy as np
	import os
	from tqdm.auto import tqdm
	from scipy.stats import mode

	# --- Konfigurasi ---
	PROCESSED_DATA_DIR = "../datasets/processed"
	MODELS_DIR = "../models"
	RESULTS_DIR = "../results"
	MAX_LEN = 256
	BATCH_SIZE = 16

	os.makedirs(RESULTS_DIR, exist_ok=True)

	MODEL_CONFIG = {
	"bert": "BERT",
	"roberta": "RoBERTa",
	"electra": "ELECTRA",
	"xlnet": "XLNet"
	}

	# --- Kelas Dataset Kustom ---
	class NewsDataset(Dataset):
	def __init__(self, texts, labels, tokenizer, max_len):
	self.texts = texts; self.labels = labels; self.tokenizer = tokenizer; self.max_len = max_len
	def __len__(self): return len(self.texts)
	def __getitem__(self, item):
	text = str(self.texts[item]); label = self.labels[item]
	encoding = self.tokenizer.encode_plus(text, add_special_tokens=True, max_length=self.max_len, padding='max_length', truncation=True, return_attention_mask=True, return_tensors='pt')
	return {'input_ids': encoding['input_ids'].flatten(), 'attention_mask': encoding['attention_mask'].flatten(), 'labels': torch.tensor(label, dtype=torch.long)}

	# --- Fungsi untuk Mendapatkan Prediksi ---
	def get_predictions(model, data_loader, device):
	model = model.eval().to(device); predictions = []
	with torch.no_grad():
	for batch in tqdm(data_loader, desc=f"Predicting", leave=False):
	input_ids = batch["input_ids"].to(device); attention_mask = batch["attention_mask"].to(device)
	outputs = model(input_ids, attention_mask=attention_mask)
	_, preds = torch.max(outputs.logits, dim=1)
	predictions.extend(preds.cpu().numpy())
	return np.array(predictions)

	# --- Fungsi Visualisasi Baru ---
	def plot_class_distribution(df, output_path):
	plt.figure(figsize=(8, 6))
	sns.countplot(x='label', data=df, palette='pastel')
	plt.title('Distribusi Kelas pada Data Uji', fontsize=16)
	plt.xlabel('Label', fontsize=12)
	plt.ylabel('Jumlah', fontsize=12)
	plt.xticks(ticks=[0, 1], labels=['Fakta (0)', 'Hoax (1)'])
	plt.tight_layout()
	plt.savefig(output_path, dpi=300)
	plt.close()
	print(f"Diagram distribusi kelas disimpan di: {output_path}")

	def plot_text_length_distribution(df, output_path):
	plt.figure(figsize=(10, 6))
	text_lengths = df['text'].str.split().str.len()
	sns.histplot(text_lengths, bins=50, kde=True, color='skyblue')
	plt.title('Distribusi Panjang Teks pada Data Uji', fontsize=16)
	plt.xlabel('Jumlah Kata', fontsize=12)
	plt.ylabel('Frekuensi', fontsize=12)
	plt.tight_layout()
	plt.savefig(output_path, dpi=300)
	plt.close()
	print(f"Diagram distribusi panjang teks disimpan di: {output_path}")

	def plot_full_metric_comparison(summary_df, output_path):
	# 'Melt' dataframe untuk plotting dengan seaborn
	df_melted = pd.melt(summary_df, id_vars=['Model'], value_vars=['Accuracy', 'Precision', 'Recall', 'F1-score'],
	var_name='Metric', value_name='Score')

	plt.figure(figsize=(14, 8))
	barplot = sns.barplot(x='Model', y='Score', hue='Metric', data=df_melted, palette='viridis')
	plt.title('Perbandingan Kinerja Metrik Antar Model', fontsize=16, pad=20)
	plt.xlabel('Model', fontsize=12)
	plt.ylabel('Skor', fontsize=12)
	plt.xticks(rotation=15, ha="right")
	plt.ylim(0.9, 1.0) # Fokus pada perbedaan skor yang kecil
	plt.legend(title='Metrik')

	# Tambahkan label nilai di atas bar
	for container in barplot.containers:
	barplot.bar_label(container, fmt='%.4f', fontsize=9, padding=3)

	plt.tight_layout()
	plt.savefig(output_path, dpi=300)
	plt.close()
	print(f"Diagram perbandingan metrik lengkap disimpan di: {output_path}")

	# --- Fungsi Utama Evaluasi ---
	def main_evaluation():
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print(f"Menggunakan device: {device}")

	# 1. Muat Data Uji dan Buat Visualisasi Data
	test_data_path = os.path.join(PROCESSED_DATA_DIR, "test.csv")
	if not os.path.exists(test_data_path):
	print(f"ERROR: File data uji tidak ditemukan di {test_data_path}"); return
	test_df = pd.read_csv(test_data_path)
	test_df.dropna(subset=['text', 'label'], inplace=True); true_labels = test_df['label'].astype(int).to_numpy(); test_texts = test_df['text'].tolist()
	if len(test_texts) == 0: print("Data uji kosong. Hentikan evaluasi."); return

	print("\n--- Membuat Visualisasi Data Uji ---")
	plot_class_distribution(test_df, os.path.join(RESULTS_DIR, "class_distribution.png"))
	plot_text_length_distribution(test_df, os.path.join(RESULTS_DIR, "text_length_distribution.png"))

	# 2. Dapatkan Prediksi dari Setiap Model Individual
	all_predictions = {}
	for model_folder, model_name in MODEL_CONFIG.items():
	print(f"\n--- Memproses Model: {model_name} ---")
	model_path = os.path.join(MODELS_DIR, model_folder)
	if not os.path.exists(model_path):
	print(f" PERINGATAN: Direktori model {model_path} tidak ditemukan. Melewati."); continue
	try:
	tokenizer = AutoTokenizer.from_pretrained(model_path)
	model = AutoModelForSequenceClassification.from_pretrained(model_path)
	test_dataset = NewsDataset(test_texts, true_labels, tokenizer, MAX_LEN)
	test_data_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE, num_workers=0)
	predictions = get_predictions(model, test_data_loader, device)
	all_predictions[model_name] = predictions
	print(f" Prediksi untuk model {model_name} selesai.")
	except Exception as e: print(f" ERROR saat memproses model {model_name}: {e}")
	if not all_predictions: print("KRITIS: Tidak ada model yang berhasil diproses. Hentikan evaluasi."); return

	# 3. Buat Prediksi Ensemble (Bagging) dengan Voting
	stacked_predictions = np.array(list(all_predictions.values())); ensemble_preds, _ = mode(stacked_predictions, axis=0, keepdims=False)
	all_predictions["Bagging (Ensemble)"] = ensemble_preds; print("\n--- Prediksi Ensemble (Bagging) dengan voting selesai. ---")

	# 4. Hitung Metrik dan Buat Output untuk Semua Model
	results_summary = []
	for model_name, predictions in all_predictions.items():
	print(f"\n--- Hasil Evaluasi untuk: {model_name} ---")
	report_dict = classification_report(true_labels, predictions, target_names=['Fakta (0)', 'Hoax (1)'], output_dict=True, zero_division=0)
	report_text = classification_report(true_labels, predictions, target_names=['Fakta (0)', 'Hoax (1)'], zero_division=0)
	print("\nClassification Report:"); print(report_text)
	with open(os.path.join(RESULTS_DIR, f"{model_name.replace(' ', '_')}_classification_report.txt"), "w") as f: f.write(report_text)
	cm = confusion_matrix(true_labels, predictions)
	plt.figure(figsize=(8, 6)); sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Fakta (0)', 'Hoax (1)'], yticklabels=['Fakta (0)', 'Hoax (1)'])
	plt.xlabel('Predicted Label'); plt.ylabel('True Label'); plt.title(f'Confusion Matrix - {model_name}')
	cm_path = os.path.join(RESULTS_DIR, f"{model_name.replace(' ', '_')}_confusion_matrix.png"); plt.savefig(cm_path, dpi=300); plt.close()
	print(f" Confusion matrix disimpan di {cm_path}")
	results_summary.append({
	"Model": model_name, "Accuracy": report_dict['accuracy'], "Precision": report_dict['weighted avg']['precision'],
	"Recall": report_dict['weighted avg']['recall'], "F1-score": report_dict['weighted avg']['f1-score']
	})

	# 5. Buat dan Simpan Tabel Perbandingan & Diagram Perbandingan Akhir
	if results_summary:
	summary_df = pd.DataFrame(results_summary)
	summary_df = summary_df.sort_values(by="F1-score", ascending=False).reset_index(drop=True)
	print("\n--- Ringkasan Perbandingan Final Antar Model ---")
	print(summary_df.round(4).to_string())
	summary_df.to_csv(os.path.join(RESULTS_DIR, "model_comparison_summary.csv"), index=False, float_format='%.4f')
	summary_df.to_excel(os.path.join(RESULTS_DIR, "model_comparison_summary.xlsx"), index=False, float_format='%.4f')
	print(f"\nRingkasan perbandingan disimpan di '{RESULTS_DIR}/'")
	# Panggil fungsi visualisasi perbandingan metrik yang baru
	plot_full_metric_comparison(summary_df, os.path.join(RESULTS_DIR, "full_metric_comparison_plot.png"))

	if __name__ == '__main__':
	main_evaluation()