Spaces:

DINO00
/

api-hoax

Running

App Files Files Community

api-hoax / api.py

DINO00

Update api.py

5c4c049 verified 2 months ago

raw

history blame contribute delete

6.13 kB

	from fastapi import FastAPI, HTTPException
	from fastapi.middleware.cors import CORSMiddleware
	from pydantic import BaseModel
	import joblib
	import os
	import re
	import requests
	from bs4 import BeautifulSoup
	import json

	# --- 1. KERAS 3 IMPORTS ---
	from keras.models import load_model
	from keras.utils import pad_sequences
	# Menggunakan modul legacy bawaan TensorFlow untuk memuat JSON
	from tensorflow.keras.preprocessing.text import tokenizer_from_json

	app = FastAPI(
	title="API Deteksi Hoax Multi-Model",
	description="API untuk mendeteksi berita hoax menggunakan pilihan model.",
	version="1.0.2" # Versi Keras 3 + JSON Tokenizer
	)

	app.add_middleware(
	CORSMiddleware,
	allow_origins=["https://deteksi-berita-hoax-kappa.vercel.app/"],
	allow_credentials=True,
	allow_methods=["*"],
	allow_headers=["*"],
	)

	# --- 2. LOAD KEDUA MODEL ---
	models = {
	"naive_bayes": None,
	"lstm": None
	}
	tokenizer = None

	# Load Model Naive Bayes
	PATH_NB = 'model_hoax_complete.pkl'
	try:
	if os.path.exists(PATH_NB):
	models["naive_bayes"] = joblib.load(PATH_NB)
	print("Model Naive Bayes berhasil dimuat!")
	except Exception as e:
	print(f"Error loading Naive Bayes: {e}")

	# Load Model LSTM (Format Keras 3)
	PATH_LSTM = 'lstm_fake_news_model.h5'
	try:
	if os.path.exists(PATH_LSTM):
	models["lstm"] = load_model(PATH_LSTM)
	print("Model LSTM berhasil dimuat!")
	except Exception as e:
	print(f"Error loading LSTM: {e}")

	# Load Tokenizer untuk LSTM (Format JSON)
	PATH_TOKENIZER = 'tokenizer.json'
	try:
	if os.path.exists(PATH_TOKENIZER):
	with open(PATH_TOKENIZER) as f:
	data = json.load(f)
	tokenizer = tokenizer_from_json(data)
	print("Tokenizer LSTM (JSON) berhasil dimuat!")
	except Exception as e:
	print(f"Error loading Tokenizer: {e}")

	# --- 3. SKEMA REQUEST & SCRAPER ---
	class PredictRequest(BaseModel):
	input_text: str
	model_type: str = "naive_bayes"

	def scrape_berita(url):
	"""Fungsi pembaca halaman web (Scraper)"""
	try:
	headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
	response = requests.get(url, headers=headers, timeout=10)
	response.raise_for_status()
	soup = BeautifulSoup(response.content, 'html.parser')
	paragraf = soup.find_all('p')
	teks_berita = " ".join([p.get_text() for p in paragraf])
	return teks_berita.strip()
	except Exception as e:
	return f"GAGAL: {e}"

	@app.post("/predict")
	def deteksi_hoax_api(request: PredictRequest):
	# --- 4. VALIDASI INPUT ---
	jenis_model = request.model_type
	if jenis_model not in models:
	raise HTTPException(status_code=400, detail="Pilihan model tidak valid. Gunakan 'naive_bayes' atau 'lstm'.")

	aktif_model = models[jenis_model]
	if aktif_model is None:
	raise HTTPException(status_code=500, detail=f"Model {jenis_model} tidak ditemukan di server.")

	teks_mentah = request.input_text.strip()
	if not teks_mentah:
	raise HTTPException(status_code=400, detail="Input tidak boleh kosong.")

	if teks_mentah.startswith("http://") or teks_mentah.startswith("https://"):
	teks_untuk_dianalisis = scrape_berita(teks_mentah)
	if teks_untuk_dianalisis.startswith("GAGAL:"):
	raise HTTPException(status_code=400, detail=f"Gagal memproses URL: {teks_untuk_dianalisis}")
	else:
	teks_untuk_dianalisis = teks_mentah

	# --- 5. PREDIKSI BERDASARKAN MODEL ---
	kamus_bobot = {}
	prob_fakta = 0.0
	prob_hoax = 0.0

	if jenis_model == "naive_bayes":
	proba = aktif_model.predict_proba([teks_untuk_dianalisis])[0]
	prob_fakta = float(proba[0])
	prob_hoax = float(proba[1])

	# Ekstraksi kata untuk highlight Frontend
	try:
	vec = aktif_model[0]
	clf = aktif_model[1]
	feature_names = vec.get_feature_names_out()
	log_odds = clf.feature_log_prob_[1] - clf.feature_log_prob_[0]
	kamus_bobot = dict(zip(feature_names, log_odds))
	except Exception:
	pass

	elif jenis_model == "lstm":
	if tokenizer is None:
	raise HTTPException(status_code=500, detail="Tokenizer model LSTM tidak ditemukan di server.")

	# 1. Konversi Teks ke Sequence Angka
	sequence = tokenizer.texts_to_sequences([teks_untuk_dianalisis])

	# 2. Padding
	MAX_LEN = 150 # Sesuaikan dengan panjang saat training
	padded_sequence = pad_sequences(sequence, maxlen=MAX_LEN, padding='post', truncating='post')

	# 3. Prediksi (Keras 3 mengembalikan array numpy standar)
	prediksi_mentah = aktif_model.predict(padded_sequence, verbose=0)[0]

	# 4. Pengolahan Output Keras 3
	if len(prediksi_mentah) >= 2:
	prob_fakta = float(prediksi_mentah[0])
	prob_hoax = float(prediksi_mentah[1])
	else:
	nilai = float(prediksi_mentah[0])
	prob_hoax = nilai
	prob_fakta = 1.0 - nilai

	# --- 6. PENENTUAN HIGHLIGHT KATA ---
	kata_kata = teks_untuk_dianalisis.split()
	teks_highlight = []

	for kata in kata_kata:
	kata_bersih = re.sub(r'[^a-z]', '', kata.lower())
	bobot = float(kamus_bobot.get(kata_bersih, 0))

	if bobot > 0.3:
	label_kata = "Hoax"
	elif bobot < -0.3:
	label_kata = "Fakta"
	else:
	label_kata = "Netral"

	teks_highlight.append({
	"kata": kata,
	"label": label_kata,
	"bobot": round(bobot, 4)
	})

	return {
	"status": "success",
	"hasil_analisis": {
	"model_digunakan": jenis_model,
	"teks_dianalisis": teks_untuk_dianalisis,
	"prediksi_utama": "HOAX" if prob_hoax > prob_fakta else "FAKTA",
	"probabilitas": {
	"fakta": round(prob_fakta * 100, 2),
	"hoax": round(prob_hoax * 100, 2)
	}
	},
	"bedah_kata": teks_highlight
	}